データマイニングの流れ

データの整備

 生データでは分析できる状態にない場合が多い。データマイニングを実践しやすいように、データを蓄積して、必要なデータを容易に取り出せるように保管されたデータの集まりを、データウェアハウスと呼ぶ。

 データマイニングでは大量のデータを扱うことが前提となっているため、データを手入力することは基本的に考えない。そのため、データウェアハウスの構築は、データマイニングを実施する上で重要な課題になってきます。

データの検査

 異常に大きな値、あるいは小さな値を持つデータが含まれていないかどうかをチェックする。