掲示板収集マルチスレッドプログラム
雑記ばかり書いて居てもなんなので。
研究開発の話でも。
掲示板のURLを解析して,「次へ」で辿れるような数百ページを収集するプログラムを仕上げました。
まだ本動作はさせていませんが、試験動作で性能を確認。
50ページ分をNプロセスの並列処理で取得した時の所要時間。
Thread数 | 所要時間(秒) |
---|---|
1 | 179 |
2 | 94 |
5 | 84 |
6 | 86 |
7 | 81 |
8 | 87 |
9 | 92 |
10 | 88 |
ノートPCの性能(プロセッサタイプ)なのか,ネットワーク回線なのか,取得するURL数なのか。
要因は分かりませんが,少なくとも1プロセスよりは2〜5プロセスぐらいにした方がいいことは確かな様子。
別に最適な並列化数を求めることが私の研究ではないので,パパッと収集できればいいんですが。
本来は,取得URLリストをN個に分割した上で,研究室のブレードサーバ総動員って感じで収集させたいところ。結局1台のPCで実行していたんじゃ,あまり高速化できないのは自明ですね。