IT is IT.

空想イノベーション

ディープラーニング+強化学習

2013年に、DeepMind社が、ディープラーニングと強化学習を組み合わせたゲームのブロック崩しの動画を公開した。


DQN Breakout
この動画では、人間を上回る記録を残し、大きな反響となった。

この強化学習では、Q学習(Q learning)と呼ばれる手法が使われ、ディープラーニングと組み合わせることで、DQN(Deep Q-Network)と呼ばれ、これ以降、

  • Double DQN
  • Dueling Network
  • Categorical DQN
  • Rainbow

といったいくつかの改良版モデルが開発された。

スポンサーリンク
 

また、2015年には、同じくDeepMind社が開発したAlphaGo(アルファ碁)が人間の世界チャンピオンに勝利し、話題になった。
AlphaGoは、畳み込みニューラルネットワークが用いられ、どのような手を打つかの探索は、モンテカルロ木探索が使われている。

さらには、2017年に、完全に自己学習のみで学習を行なっているAlphaGo Zeroが、AlphaGoを完全に超える強さにまで学習を行い、話題となった。