ディープラーニング＋強化学習

2013年に、DeepMind社が、ディープラーニングと強化学習を組み合わせたゲームのブロック崩しの動画を公開した。 DQN Breakout この動画では、人間を上回る記録を残し、大きな反響となった。この強化学習では、Q学習（Q learning）と呼ばれる手法が使われ、…

教師あり学習と強化学習の違い

機械学習においては、教師あり学習と、教師なし学習についてこれまで触れてきたが、もう一つ、強化学習というものが存在する。強化学習とは、行動を学習する仕組みである。ある環境において、目的とするスコアを最大化するためにどのように行動すればよい…

Bidirectional RNN 通常のLSTMは、過去から未来への一方通行にのみ対応しているが、ケースによっては、過去と未来の両方の情報を使って予測する方が効果的な場合もある。こういった場合、LSTMを2つ組み合わせることで、過去から未来、未来から過去の両ケー…

リカレントニューラルネットワークにおいても、通常のニューラルネットワーク同様、勾配消失問題がある。さらに、時系列を扱ううえで固有の問題として、現時点では関係性が少なくても、将来は関係性がある、というような入力があった場合に、重みを大きすべ…

時間依存性を学習するリカレントニューラルネットワークの仕組みとは一体どのようになっているのか。実はそんなに難しいことではなく、通常のニューラルネットワークが持つ隠れ層と同様に、過去の隠れ層が追加されているものが、リカレントニューラルネット…