線形回帰とロジスティック回帰

線形回帰

統計でも用いられる手法で、最もシンプルなモデルの1つである。
データの分布があったときに、そのデータに最も当てはまる直線を考える、というもの。
f:id:itry:20190129220331p:plain

線形回帰に正則化項を加えた、ラッソ回帰、リッジ回帰などがある。
双方の違いは、どのような項を用いるかによって変わってくる。

ラッソ回帰
最小二乗法の式に正則化項（L1ノルム）を加え、その最小を求めることでモデル関数を発見する。
不要なパラメータ（次元、特徴量）を削ることができる。

リッジ回帰
最小二乗法の式に正則化項（L2ノルム）を加え、その最小を求めることでモデル関数を発見する。
過学習を抑えることができる。

ラッソ回帰、リッジ回帰に比べ、線形回帰は過学習を起こしやすい、とされている。

ロジスティック回帰

名称に「回帰」とついているが、回帰問題ではなく、分類問題を用いる。
ロジスティック回帰では、シグモイド関数という関数をモデルの出力に用いる。
f:id:itry:20190129221300p:plain

閾値が0.5の場合、与えられたデータが0.5以上であれば正例（+1）、0.5未満であれば負例（0）とすることで、データを2種類に分類することができる。
この閾値を0.7、0.3などのように操作することで、例えば、迷惑メールの判定基準を変更したりできる。
なお、迷惑メールの判定閾値は、通常は、高めに設定していることが多い。

2種類の分類だけでなく、多数の分類を行う場合は、ソフトマックス関数を用いる。