IT is IT.

空想イノベーション

訓練データ、検証データ、テストデータの役割と意味

f:id:itry:20190204225333j:plain
これまでに述べてきたように、機械学習は、データを学習することによってデータの特徴をつかみ、識別、予測できるようにするもである。
この時、既知のデータだけでは、未知のデータ(入力)に対して識別、予測することができない。
そこで、手元にあるデータから、擬似的に未知のデータを作り出すのである。
この時に、学習用のデータと、評価用のデータをランダムに分割する。
ランダムに分割されたデータは、それぞれ、

学習用のデータ=訓練データ
評価用のデータ=テストデータ

と呼ばれる。
このようにデータを分割して評価することえお交差検証と呼ぶ。

スポンサーリンク
 

また、交差検証にも2種類あり、

事前にデータを訓練データとテストデータに分割する方法=ホールドアウト検証
訓練データ、テストデータの分割を複数回行い、それぞれで学習、評価を行う方法=k-分割交差検証

とそれぞれ呼ぶ。

さらに、訓練データをさらに分割するケースもある。
ここで分割されたデータは、それぞれ、訓練データ検証データと呼ばれる。

訓練データで学習を行い、検証データで一度モデルの評価を行い、モデルのパラメータを調整して最終的なモデルを決定し、テストデータで評価を行う、という順でデータが使用される。