IT is IT.

空想イノベーション

機械学習の具体的手法

オーバーフィッティングとアンダーフィッティング

訓練データにのみ正解率が高くなり、テストデータで極端に正解率が下がってしまう状態に陥ってしまうことを、オーバーフィッティングと呼ぶ。 この状態では、正しい予測、評価を行えなくなってしまう可能性がある。 そこで、オーバーフィッティングを防ぐ方…

モデル評価のための色々な数式

モデルを評価するうえで、その方法は一つではなく、いくつか存在する。 それら評価を行ううえで、必要となるのが、混同行列(confusion matrix)である。 混同行列は、以下のように分類される。 真陽性True Positive(TP) 偽陰性False Negative(FN) 偽陽…

訓練データ、検証データ、テストデータの役割と意味

これまでに述べてきたように、機械学習は、データを学習することによってデータの特徴をつかみ、識別、予測できるようにするもである。 この時、既知のデータだけでは、未知のデータ(入力)に対して識別、予測することができない。 そこで、手元にあるデー…

教師なし学習の代表的手法、k-means

教師なし学習とは、出力のない、入力データの構造や特徴をつかむものであるが、その教師なし学習の中の一つ、k-meansは、データをk個のグループ(クラスタ)に分けることを目的としている。 つまり、入力データから、グループ構造を見つけ出し、それぞれに分…

人間の脳を真似したニューラルネットワーク

人間の脳の中の構造を模したアルゴリズムである。 人間の脳には、ニューロンと呼ばれる神経回路があり、互いに結びつくことで全体を構成している。 単純パーセプトロンは、ニューラルネットワークのモデルで、複数の特徴量(入力)を受け取り、1つの出力を行…

サポートベクターマシンの欠点克服法

SVMとも呼ばれる高度な数学的理論に支えられた手法で、ディープラーニングが登場するまでは、最も人気のある機械学習の手法の1つであった。 サポートベクターマシンでは、入力データの各データ点と距離が最大となるような境界線を求めることで、パターン分類…

ランダムフォレストによる学習アルゴリズム

ランダムフォレストとは、決定木を用いる学習手法である。 特徴量をランダムに選び出すことで、ランダムに複数の決定木が作られる。 この結果、各予想で異なる結果が出ることがあるが、それぞれの結果を用いて多数決をとることで、最終的な決定を行う。 また…

線形回帰とロジスティック回帰

線形回帰 統計でも用いられる手法で、最もシンプルなモデルの1つである。 データの分布があったときに、そのデータに最も当てはまる直線を考える、というもの。 線形回帰に正則化項を加えた、ラッソ回帰、リッジ回帰などがある。 双方の違いは、どのような項…

教師あり学習と教師なし学習

教師あり学習 教師あり学習とは、与えられたデータ(入力)をもとに、そのデータがどんなパターン(出力)になるのかを識別・予測するものである。 具体例として、以下のようなものがあげられる。 過去の売上(入力)から、将来の売上(出力)を予測する 与…