ディープラーニング+強化学習
2013年に、DeepMind社が、ディープラーニングと強化学習を組み合わせたゲームのブロック崩しの動画を公開した。
DQN Breakout
この動画では、人間を上回る記録を残し、大きな反響となった。
この強化学習では、Q学習(Q learning)と呼ばれる手法が使われ、ディープラーニングと組み合わせることで、DQN(Deep Q-Network)と呼ばれ、これ以降、
- Double DQN
- Dueling Network
- Categorical DQN
- Rainbow
といったいくつかの改良版モデルが開発された。
スポンサーリンク
また、2015年には、同じくDeepMind社が開発したAlphaGo(アルファ碁)が人間の世界チャンピオンに勝利し、話題になった。
AlphaGoは、畳み込みニューラルネットワークが用いられ、どのような手を打つかの探索は、モンテカルロ木探索が使われている。
さらには、2017年に、完全に自己学習のみで学習を行なっているAlphaGo Zeroが、AlphaGoを完全に超える強さにまで学習を行い、話題となった。