教師あり学習と強化学習の違い
機械学習においては、教師あり学習と、教師なし学習についてこれまで触れてきたが、もう一つ、強化学習というものが存在する。
強化学習とは、行動を学習する仕組みである。
ある環境において、目的とするスコアを最大化するためにどのように行動すればよいか、を学習するものである。
これは、一連の行動系列の結果としてのスコアを最大とするように学習することを意味する。
スポンサーリンク
簡単な例として、教師あり学習のケースと比較する。
ロボットの歩行制御に関する学習
教師あり学習の場合
ロボットの関節の角度や動かす速度がどれくらいのときに、どれくらいの歩幅で歩けばよいかを入力と出力のペアで用意し学習を行う
強化学習の場合
歩けやた距離をスコアとして与えることで、歩行距離を最大化するために、自ら行動(歩く方法)を変え、歩行距離が伸びるような学習を行う
決定的な違いは、強化学習では、状態をいかに表現できるか、また、その状態に基づいていかに行動に結びつけることができるか、というアプローチをとることである。