強化学習-ReinforcementLearning-

強化学習アルゴリズム

強化学習の例3

強化学習アルゴリズムであるTD(0),sarsa,Q-learningを同じ問題に対して適用した場合の結果を見てみる。問題は次のような崖のある格子平面で、崖に落ちると大きな罰が与えられ、早くゴールするほど報酬が多くもらえるように設定してある。

問題:(S:スタート、G:ゴール) 崖のある格子平面

TD(0)の学習結果
崖のある格子平面:TD

sarsaの学習結果
崖のある格子平面:sarsa

Q-learningの学習結果
崖のある格子平面:QL

三つの結果から分かる通りQ-learningだけが最短経路を学習していることになる。これは学習の際に用いた方策の影響がsarsaやTD(0)で現れているためと考えられる。