Mecab

結局ファイル書き出しでmecab&cabocha

パフォーマンス低下が著しいし,TOKENの設定が難しいので,入力データも出力データも一旦ファイルシステムを使うことに. 将来的にはtmpfsを使えばいいかな. オプション指定があるので,前回とは違い,mecabおよびcabocha専用. CabochaTest.java import ja…

Mecab | Cabocha -I1 -f1 from Java

先日,ProcessBuilderを使ったMecabの呼び出しを書いたが,テキストの規模が大きくなるとフリーズする(プロセスがどっかへ逝く)ことが判明した. Mecabより先にCabochaの方が限界を迎える. 原因は,JavaのBufferedStream(Reader|Writer)のバッファサイズ…