IT is IT.

空想イノベーション

オーバーフィッティングとアンダーフィッティング

f:id:itry:20190205222642j:plain
訓練データにのみ正解率が高くなり、テストデータで極端に正解率が下がってしまう状態に陥ってしまうことを、オーバーフィッティングと呼ぶ。
この状態では、正しい予測、評価を行えなくなってしまう可能性がある。

そこで、オーバーフィッティングを防ぐ方法として、正則化を行う。
よく用いられる正則化項として、

  • L1正則化
    一部のパラメータの値をゼロにすることで、特徴選択を行うことができる
  • L2正則化
    パラメータの大きさに応じてゼロに近づけることで、汎化された滑らかなモデルを得ることができる

L1正則化、L2正則化は線形回帰でも触れたが、L1正則化を適用した手法をラッソ回帰、L2正則化を適用した方法をリッジ回帰とそれぞれ呼ぶ。
また両者を組み合わせた手法をElastic Netと呼ぶ。

スポンサーリンク
 

なお、正則化はオーバーフィッティングを防ぐために用いる手法ではあるが、逆に、正則化しすぎてしまうと、全体の汎化性能(予測性能)が低下してしまうことがある。
この状態を、アンダーフィッティングと呼ぶ。