強化学習-ReinforcementLearning-強化学習アルゴリズム強化学習の例3強化学習アルゴリズムであるTD(0),sarsa,Q-learningを同じ問題に対して適用した場合の結果を見てみる。問題は次のような崖のある格子平面で、崖に落ちると大きな罰が与えられ、早くゴールするほど報酬が多くもらえるように設定してある。問題:(S:スタート、G:ゴール)
TD(0)の学習結果
sarsaの学習結果
Q-learningの学習結果
三つの結果から分かる通りQ-learningだけが最短経路を学習していることになる。これは学習の際に用いた方策の影響がsarsaやTD(0)で現れているためと考えられる。 |