NLP

結局ファイル書き出しでmecab&cabocha

パフォーマンス低下が著しいし,TOKENの設定が難しいので,入力データも出力データも一旦ファイルシステムを使うことに. 将来的にはtmpfsを使えばいいかな. オプション指定があるので,前回とは違い,mecabおよびcabocha専用. CabochaTest.java import ja…

Mecab | Cabocha -I1 -f1 from Java

先日,ProcessBuilderを使ったMecabの呼び出しを書いたが,テキストの規模が大きくなるとフリーズする(プロセスがどっかへ逝く)ことが判明した. Mecabより先にCabochaの方が限界を迎える. 原因は,JavaのBufferedStream(Reader|Writer)のバッファサイズ…

Play frameworkでmecab apiを自炊する

Play frameworkのインストールは,zipを解凍するだけなので省略. 環境はUbuntu Desktop 10.04.MecabはUTF-8阪. Mecabのインストールは,http://d.hatena.ne.jp/Syo-Takasaki/20090528/1243484754 を参照してください. apiアプリの生成 $ ./play new api …

UbuntuにUTF-8版のcabochaを簡単にインストールする方法

環境はUbuntu 9.04 Desktop-jaです. mecabのインストール aptにutf8版の辞書も用意されていました. $ sudo apt-get install mecab mecab-utils mecab-ipadic-utf8 何故かjuman-dicも入るし,utf8ではないipadicも入る対象に入ってしまうが,気にしない. …

MeCab,出力形式によってはエラーになる

NLP

MeCabにて解析できない文がある。 半角記号はすべて全角にしているので、その辺は心配していなかったのだが。 tagger.cpp(166) [writer_.write(ostrs_, str, n)] writer.cpp(271) [n MeCabのメーリングリストに入ってみた。まだこの件は投稿していない。 UTF…

Mecabをソースからインストールする

http://mecab.sourceforge.jp/ http://www.asahi-net.or.jp/~yw3t-trns/namazu/mecab/index.htm http://www.kaede-software.com/2006/02/post_393.html UTF-8専用にして軽いのを作るぞ。 ダウンロード http://mecab.sourceforge.jp/src/にアクセス。下記の3…

mecab-perlのインストールに失敗

NLP

環境はDebian。mecabはapt-get install mecabでインストール済み。 http://mecab.sourceforge.jp/src/からmecab-perl-0.93.tar.gzをダウンロード。 解凍し,Makefileを実行。 $ tar -zxvf mecab-perl-0.93.tar.gz $ cd mecab-perl-0.93 $ su # perl Makefile…