新情報検出Level.1 - Syo-Takasakiの日記

　自分が望む情報がネット上に出現したら即通知して欲しい。そんなニーズは企業個人を問わずあると思う。

　企業なら、自社の口コミ情報や商品レビュー。
　個人なら、自分の趣味の情報。自分のサイトにリンクを張っているサイト

　そんな、新情報検出サービスを実現するには障害が結構ある。

実現へ向けての障害と解決へ向けてのアプローチ

　
　
　
■障害１

　まず、求める情報をどうやって定義するのか。

　１．キーワード
　２．検索式（クエリ）
　３．シソーラスの併用
　４．意味（セマンティック）

　番号が大きくなるにつれ難しくなる。意味によるITを用いた解決は今のところ実現不可能である。

■障害２

　情報はサイトに、ページに存在する。当たり外れは別として情報にどうやってアクセスするのか。

　１．ハイパーリンクを辿る
　２．検索エンジンを利用する
　　　（検索式による情報検索）
　３．データベースに予め蓄積しておく
　　　（データベースはハイパーリンクを辿り作成される）

　我々は、今後も爆発的に増えていくであろう情報を活用対象とするために、データベースレスという理念を持っている。そのため、３番は初めから除外される。

　よって、本サービスを実現するためには１か２ということになるのだが、私はここで１と２の併用を提唱する。
　初期アクセス時には右も左も分からないため、登録してある検索エンジンで検索する他はない。その後、ユーザーの選択によって該当情報であると指定されたサイトから、リンクを辿ることで意味的に関連のある情報にアクセス出来ると言われている。
　であるから、併用することで最終的には検索エンジンに登録されるかもしれないが、リンクが出来次第アクセスし、情報を入手可能にする。

■障害３

　情報掲載位置の特定。または意図した情報のみの提示。
　キーワードによる情報特定ならばそのページが数万行に渡ろうが問題ないが、シソーラスやセマンティックを用いて検出した情報は、ユーザーが想定している形ではない。
　そのため、ユーザーに情報が掲載されているURLだけでなくページ内における場所も提供する必要がある。

　具体的な解決策はないが、何らかの形でシステムが求める情報であると判定したからにはその判定条件をユーザーに提示することで解決出来ると思われる。
　
　
　
　新情報検出Level.1

　上記障害への解決はどれも労力を必要とする。まずは機能レベルを区切り、ファーストステップとして以下のようなシステムを新情報検出Level.1として定義した。

＋初利用
１．ユーザーは欲しい情報を検索可能な検索式を作成し、システムに登録する
２．システムは検索エンジンを用いて検索結果を取得し、ユーザーに提示する
３．ユーザーは提示された結果から、意図した情報を選択する
４．システムは選択された情報のURLにアクセスし、リンク先を取得、ユーザーに提示する
５．ユーザーは提示された結果から、意図した情報を選択する
６．システムはシステム利用のセーブデータをユーザーに提供する
７．ユーザーはセーブデータを保存する

＋２回以降
１．ユーザーは前回のセーブデータをシステムに入力する
２．システムは受け取ったセーブデータから検索式を入力し、検索エンジンを用いて検索結果を取得し、セーブデータにある検索結果との差分を探す
３．システムは受け取ったセーブデータにあるユーザーの意図した情報URLにアクセスし、リンク先を取得、検索結果との差分を探す
４．検出した差分をユーザーに提示する
５．ユーザーは提示された結果から、意図した情報を選択する
６．システムはシステム利用のセーブデータをユーザーに提供する
７．ユーザーはセーブデータを保存する

　何故サーバーに情報を残さずセーブデータなのか、と言うと恐らくサービスとして提供していく上でユーザーのアクションを待たない自動巡回はユーザー数に比例して処理量が膨大となり、不可能であると考えたからである。
　ならば、パッケージアプリケーションとして提供すればいいではないか、となるがWeb辞苑はインストール不要、つまりWebアプリケーションとしてのサービスであるためそうはいかないのである。

　まずは自PCでの実行＆Google検索結果の差分だけでも私は使いたい。情報検索に興味を持つ文献生、Perlでなら差分検出以外は全部答えをすぐ用意出来るので、作ってみる気はありませんか？
（自分で作れよ……）