テキスト処理

日本語の処理の難しさ

オノマトペとは擬声(音)語・擬態語のことだが,日本語はオノマトペに富む言語だと言われている。 すなわち,人間にはニュアンスが伝わるが,コンピュータにも相応のスキーマを与えないと意味を解釈できない。

構文解析関連URL

形態素解析・構文解析入門 CaboCha 先輩と話していてよく言われるのが,「形態素解析器? 自分で作った方がいいよ(むしろ作らないと使える性能がでない)」 ですが,私にそこまでの深い知識はありません。 結果を便利に使わせていただきますっていうスタン…

namazuを参考にしたwvWareの導入

Linux版 環境はFedoraCore2って古いな。 ダウンロード http://prdownloads.sourceforge.net/wvwareから「wv-1.0.3.tar.gz」をダウンロード。 解凍およびインストール # su # tar -zxvf wv-1.0.3.tar.gz # cd wv-1.0.3 # view INSTALL((終了はCtrl+Z)) # ./co…

namazuを参考にしたXPDFの導入

WindowsXP環境におけるPDFtoTEXT.もちろん日本語対応. 入手 http://www.foolabs.com/xpdf/download.htmlから、 「Win32 (built with MSVC): xpdf-3.00pl3-win32.zip (1142558 bytes)」 「Japanese: xpdf-japanese.tar.gz (494624 bytes)」 をダウンロード…