相関ルールマイニング
私は第3研究として、
学生実験に関する学生のアクション分析他を行い、即座にフィードバックし、よりよい指導を行うための研究を行っている。
アクション分析の対象は、サーバーへのアクセスログである。
そのため、データマイニングを電車の中で調べてみた。
その結果、相関ルールマイニングというものがあることを知ったため、調査結果をここに書き記す。
相関ルールマイニングとは、
データ項目の大きな集合間に、ある興味深い相関を探す処理
のことである。
ルールは、
X ⇒ Y
の形で記述され、支持率と確信度という確率値を持つ。
Xという行動を起こした場合、
Xと同時にYという行動を起こす確率:支持率
既にYという行動を起こしている確率:確信度
となる。
よって、時間軸的にはXというeventが発生した際に、あらゆるeventを調べ、"既に起こしているか","同時期に起こしているか"を調べ、確率とする。
サーバーアクセスは複数アクセス同時ということは出来ないため、同時期とは何秒以内なのか、を定義する必要があると考えられる。
具体的な例を挙げると、
[レポート受理確認ページアクセス] ⇒ [レポート提出](支持率=20%,確信度=75%)
と言ったところだろうか。これは、
レポートを提出して即確認をする学生が20%
レポートを提出して直ぐには確認しないが、後日実験日にでも確認する学生が75%
ということを示す。
このデータマイニングから分かることは、クラスタリングのための指標だ。
クラスタ1:提出し、即チェックする学生(20%)
クラスタ2:提出後、後では確認する学生(75%)
クラスタ3:提出後、受理確認を行わない学生(5%)
というクラスタが出来上がる。それぞれのクラスタの学生の平均成績などを分析する事で、密な指導が必要な学生像が浮かび上がる。
最後に。
1つ1つ調査することは出来ないため、オートマチックにマイニングする手法を探す必要があるだろう。