IT is IT.

空想イノベーション

畳み込みニューラルネットワークの基本的な考え方

f:id:itry:20190216234955j:plain
畳み込みニューラルネットワークの最初のモデルが考案されたのは1982年とされている。
畳み込みニューラルネットワークは、主に画像を処理するためのネットワークと言ってもよいが、構造もそれにあわせ、人間がもつ視覚野の神経細胞の2つの動きを真似する、という考えに基づいている。
その2つの神経細胞とは、

  • 単純型細胞(S細胞)
  • 複雑型細胞(C細胞)

である。 単純型細胞は、画像の濃淡パターンを検出するために用いられ、複雑型細胞は、物体の位置が変わっても同一の物体であるとみなすために用いられる働きをする。
この2つの細胞の動きを最初に組み込んだモデルは、福島邦彦氏によって考案された、ネオコグニトロンと呼ばれるモデルだ。
ネオコグニトロンでは、 S細胞層とC細胞層を交互に組み合わせた構造で、多層構造になっている。
手書き文字認識やその他のパターン認識の課題に用いられており、畳み込みニューラルネットワークの発想の元となっている。
また、微分(勾配消失法)を用いない add-if silentと呼ばれる学習方法を採用している。
層の構造は、以下のような動きをするニューロンで構成されている。

  • 入力層
  • コントラスト抽出
  • エッジ抽出
  • 高次特徴抽出
  • 認識細胞層

スポンサーリンク
 

また1998年にはヤン・ルンカンによってLeNetと呼ばれる畳み込みニューラルネットワークモデルが考案された。
LeNetは、畳み込み層とプーリング層(サブサンプリング層)を交互に組み合わせた構造になっている。

  • 入力層
  • 特徴マップ(畳み込み層)
  • 特徴マップ(プーリング層)
  • 特徴マップ(畳み込み層)
  • 特徴マップ(プーリング層)
  • 特徴マップ(畳み込み層)
  • 特徴マップ(プーリング層)
  •   :
  • レイヤー(全結合)
  • 出力(ソフトマックス)

名称こそ違うが、C細胞層=畳み込み層、S細胞層=プーリング層にそれぞれ対応している。
なお、LeNetでは、誤差逆伝播法を用いて学習を行なっている。

現在の多くの畳み込みニューラルネットワークでは、誤差逆伝播法を用いた手法が主流となっている。