訓練データ、検証データ、テストデータの役割と意味
これまでに述べてきたように、機械学習は、データを学習することによってデータの特徴をつかみ、識別、予測できるようにするもである。
この時、既知のデータだけでは、未知のデータ(入力)に対して識別、予測することができない。
そこで、手元にあるデータから、擬似的に未知のデータを作り出すのである。
この時に、学習用のデータと、評価用のデータをランダムに分割する。
ランダムに分割されたデータは、それぞれ、
学習用のデータ=訓練データ
評価用のデータ=テストデータ
と呼ばれる。
このようにデータを分割して評価することえお交差検証と呼ぶ。
スポンサーリンク
また、交差検証にも2種類あり、
事前にデータを訓練データとテストデータに分割する方法=ホールドアウト検証
訓練データ、テストデータの分割を複数回行い、それぞれで学習、評価を行う方法=k-分割交差検証
とそれぞれ呼ぶ。
さらに、訓練データをさらに分割するケースもある。
ここで分割されたデータは、それぞれ、訓練データ、検証データと呼ばれる。
訓練データで学習を行い、検証データで一度モデルの評価を行い、モデルのパラメータを調整して最終的なモデルを決定し、テストデータで評価を行う、という順でデータが使用される。