UbuntuにUTF-8版のcabochaを簡単にインストールする方法
環境はUbuntu 9.04 Desktop-jaです.
mecabのインストール
aptにutf8版の辞書も用意されていました.
何故かjuman-dicも入るし,utf8ではないipadicも入る対象に入ってしまうが,気にしない.
動作確認
$ mecab すもももももももものうち すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ の 助詞,連体化,*,*,*,*,の,ノ,ノ うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS
もちろんターミナルはUTF-8です.apt-getのみでここまで来れたのは素晴らしい.
cabochaのインストール
http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/ が各種NLPパッケージのリポジトリ.サイトに設定方法が書いてありますが,下記に最低限のステップを.
署名情報の取得とパッケージリストの更新
$ wget http://cl.naist.jp/~eric-n/ubuntu-nlp/8ABD1965.gpg -O- | sudo apt-key add - $ sudo apt-get update
パッケージの確認(オプション作業)
$ apt-cache search cabocha cabocha-dic-utf8 - Dictionaries of Cabocha (UTF-8) cabocha-dic - Dictionaries of Cabocha (EUC-JP) libcabocha2 - Libraries of Cabocha libcabocha-dev - Header files of Cabocha cabocha - A Japanese dependency/case structure analysis system
お待ちかねのインストール
$ sudo apt-get install cabocha cabocha-dic-utf8 パッケージリストを読み込んでいます... 完了 依存関係ツリーを作成しています 状態情報を読み取っています... 完了 以下の特別パッケージがインストールされます: cabocha-dic crf++-doc libcabocha2 libcrf++0 libmecab1 以下のパッケージが新たにインストールされます: cabocha cabocha-dic cabocha-dic-utf8 crf++-doc libcabocha2 libcrf++0 以下のパッケージはアップグレードされます: libmecab1 アップグレード: 1 個、新規インストール: 6 個、削除: 0 個、保留: 4 個。 61.4MB のアーカイブを取得する必要があります。 この操作後に追加で 188MB のディスク容量が消費されます。 続行しますか [Y/n]?
Yes以外の選択肢はありません.
動作確認
$ cabocha すもももももももものうち すももも-D ももも---D ももの-D うち EOS
これだとNLP処理屋としては物足りないので-f1オプションをつけてみる.
$ cabocha -f1 すもももももももものうち * 0 1D 0/1 0.886878 すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ O も 助詞,係助詞,*,*,*,*,も,モ,モ O * 1 3D 0/1 0.000000 もも 名詞,一般,*,*,*,*,もも,モモ,モモ O も 助詞,係助詞,*,*,*,*,も,モ,モ O * 2 3D 0/1 0.000000 もも 名詞,一般,*,*,*,*,もも,モモ,モモ O の 助詞,連体化,*,*,*,*,の,ノ,ノ O * 3 -1D 0/0 0.000000 うち 名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ O EOS