教師なし学習の代表的手法、k-means
教師なし学習とは、出力のない、入力データの構造や特徴をつかむものであるが、その教師なし学習の中の一つ、k-meansは、データをk個のグループ(クラスタ)に分けることを目的としている。
つまり、入力データから、グループ構造を見つけ出し、それぞれに分類する方式である。
なお、この時の「k個」の「k」は自分で設定する値となる。
k-meansの主な動作は、以下のようになっている。
- 適当に各データをk個のクラスタに振り分ける
- 各クラスタの重心を求める
- 求めたk個の重心と各データの距離を算出し、各データを最も距離が近い重心に対応するクラスタに振り分けなおす
- 重心の位置がほぼ変化しなくなるまで、2と3を繰り返す
スポンサーリンク
得られた各クラスタがどういうものなのかを解釈するのは、人間の作業となる。
このように、k-meansを用いて分析することを、クラスタ分析と呼ぶ。