掲示板収集マルチスレッドプログラム

 雑記ばかり書いて居てもなんなので。
 研究開発の話でも。

 掲示板のURLを解析して,「次へ」で辿れるような数百ページを収集するプログラムを仕上げました。
 まだ本動作はさせていませんが、試験動作で性能を確認。
 50ページ分をNプロセスの並列処理で取得した時の所要時間。

Thread数 所要時間(秒)
1 179
2 94
5 84
6 86
7 81
8 87
9 92
10 88

 ノートPCの性能(プロセッサタイプ)なのか,ネットワーク回線なのか,取得するURL数なのか。
 要因は分かりませんが,少なくとも1プロセスよりは2〜5プロセスぐらいにした方がいいことは確かな様子。

 別に最適な並列化数を求めることが私の研究ではないので,パパッと収集できればいいんですが。

 本来は,取得URLリストをN個に分割した上で,研究室のブレードサーバ総動員って感じで収集させたいところ。結局1台のPCで実行していたんじゃ,あまり高速化できないのは自明ですね。