相関ルールマイニング

 私は第3研究として、
 学生実験に関する学生のアクション分析他を行い、即座にフィードバックし、よりよい指導を行うための研究を行っている。
 アクション分析の対象は、サーバーへのアクセスログである。
 そのため、データマイニングを電車の中で調べてみた。

 その結果、相関ルールマイニングというものがあることを知ったため、調査結果をここに書き記す。

 
 
 相関ルールマイニングとは、
 データ項目の大きな集合間に、ある興味深い相関を探す処理
 のことである。

 ルールは、

 X ⇒ Y

 の形で記述され、支持率確信度という確率値を持つ。

 Xという行動を起こした場合、
 Xと同時にYという行動を起こす確率:支持率
 既にYという行動を起こしている確率:確信度

 となる。
 よって、時間軸的にはXというeventが発生した際に、あらゆるeventを調べ、"既に起こしているか","同時期に起こしているか"を調べ、確率とする。

 サーバーアクセスは複数アクセス同時ということは出来ないため、同時期とは何秒以内なのか、を定義する必要があると考えられる。

 具体的な例を挙げると、

 [レポート受理確認ページアクセス] ⇒ [レポート提出](支持率=20%,確信度=75%)

 と言ったところだろうか。これは、
 レポートを提出して即確認をする学生が20%
 レポートを提出して直ぐには確認しないが、後日実験日にでも確認する学生が75%
 ということを示す。

 このデータマイニングから分かることは、クラスタリングのための指標だ。

 クラスタ1:提出し、即チェックする学生(20%)
 クラスタ2:提出後、後では確認する学生(75%)
 クラスタ3:提出後、受理確認を行わない学生(5%)

 というクラスタが出来上がる。それぞれのクラスタの学生の平均成績などを分析する事で、密な指導が必要な学生像が浮かび上がる。

 最後に。
 1つ1つ調査することは出来ないため、オートマチックにマイニングする手法を探す必要があるだろう。