UbuntuにUTF-8版のcabochaを簡単にインストールする方法

 環境はUbuntu 9.04 Desktop-jaです.

mecabのインストール

 aptにutf8版の辞書も用意されていました.

$ sudo apt-get install mecab mecab-utils mecab-ipadic-utf8

 何故かjuman-dicも入るし,utf8ではないipadicも入る対象に入ってしまうが,気にしない.

動作確認
$ mecab
すもももももももものうち
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
も	助詞,係助詞,*,*,*,*,も,モ,モ
もも	名詞,一般,*,*,*,*,もも,モモ,モモ
の	助詞,連体化,*,*,*,*,の,ノ,ノ
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ
EOS

 もちろんターミナルはUTF-8です.apt-getのみでここまで来れたのは素晴らしい.

cabochaのインストール

 http://cl.naist.jp/~eric-n/ubuntu-nlp/dists/dapper/all/ が各種NLPパッケージのリポジトリ.サイトに設定方法が書いてありますが,下記に最低限のステップを.

リポジトリの追加

 /etc/apt/source.listに以下を追記.

deb http://cl.naist.jp/~eric-n/ubuntu-nlp dapper all
署名情報の取得とパッケージリストの更新
$ wget http://cl.naist.jp/~eric-n/ubuntu-nlp/8ABD1965.gpg -O- | sudo apt-key add -
$ sudo apt-get update
パッケージの確認(オプション作業)
$ apt-cache search cabocha
cabocha-dic-utf8 - Dictionaries of Cabocha (UTF-8)
cabocha-dic - Dictionaries of Cabocha (EUC-JP)
libcabocha2 - Libraries of Cabocha
libcabocha-dev - Header files of Cabocha
cabocha - A Japanese dependency/case structure analysis system
お待ちかねのインストール
$ sudo apt-get install cabocha cabocha-dic-utf8
パッケージリストを読み込んでいます... 完了
依存関係ツリーを作成しています                
状態情報を読み取っています... 完了
以下の特別パッケージがインストールされます:
  cabocha-dic crf++-doc libcabocha2 libcrf++0 libmecab1
以下のパッケージが新たにインストールされます:
  cabocha cabocha-dic cabocha-dic-utf8 crf++-doc libcabocha2 libcrf++0
以下のパッケージはアップグレードされます:
  libmecab1
アップグレード: 1 個、新規インストール: 6 個、削除: 0 個、保留: 4 個。
61.4MB のアーカイブを取得する必要があります。
この操作後に追加で 188MB のディスク容量が消費されます。
続行しますか [Y/n]?

 Yes以外の選択肢はありません.

動作確認
$ cabocha
すもももももももものうち
すももも-D    
    ももも---D
      ももの-D
          うち
EOS

 これだとNLP処理屋としては物足りないので-f1オプションをつけてみる.

$ cabocha -f1
すもももももももものうち
* 0 1D 0/1 0.886878
すもも	名詞,一般,*,*,*,*,すもも,スモモ,スモモ	O
も	助詞,係助詞,*,*,*,*,も,モ,モ	O
* 1 3D 0/1 0.000000
もも	名詞,一般,*,*,*,*,もも,モモ,モモ	O
も	助詞,係助詞,*,*,*,*,も,モ,モ	O
* 2 3D 0/1 0.000000
もも	名詞,一般,*,*,*,*,もも,モモ,モモ	O
の	助詞,連体化,*,*,*,*,の,ノ,ノ	O
* 3 -1D 0/0 0.000000
うち	名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ	O
EOS

感想?

 NAIST様様.NLPの時代がキタね.UTF-8の進出も素晴らしい.
 まさか,apt-cache search mecabUTF-8版の辞書が出てくるとは思わなかった.

 cabochaは一昔前ですと,各種関連パッケージも含め,ソースコードから入れないといけなかったわけですが.まさかdebが登場するとは……鼻血モノです.