namazuを参考にしたXPDFの導入
WindowsXP環境におけるPDFtoTEXT.もちろん日本語対応.
入手
http://www.foolabs.com/xpdf/download.htmlから、
- 「Win32 (built with MSVC): xpdf-3.00pl3-win32.zip (1142558 bytes)」
- 「Japanese: xpdf-japanese.tar.gz (494624 bytes)」
をダウンロードする。
設置
- 「C:\usr\local\share\xpdf」に「xpdf-3.00pl3-win32.zip」を解凍する
- 「xpdf-japanese.tar.gz」を解凍しディレクトリ名「xpdf-japanese」を「japanese」にリネームして「C:\usr\local\share\xpdf」に置く
- sample-xpdfrcをXpdfrcにリネーム
環境設定
- 環境変数のPathに「C:\usr\local\share\xpdf」を追加する
- 「C:\usr\local\share\xpdf」の「Xpdfrc」最下部に以下の内容をコピーする
textEncoding EUC-JP #----- begin Japanese support package (2004-jul-27) cidToUnicode Adobe-Japan1 .\japanese\Adobe-Japan1.cidToUnicode unicodeMap ISO-2022-JP .\japanese\ISO-2022-JP.unicodeMap unicodeMap EUC-JP .\japanese\EUC-JP.unicodeMap unicodeMap Shift-JIS .\japanese\Shift-JIS.unicodeMap cMapDir Adobe-Japan1 .\japanese\CMap toUnicodeDir .\japanese\CMap displayCIDFontX Adobe-Japan1 "-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP #----- end Japanese support package
謎
「D:\Resource」に「C:\usr\local\share\xpdf\japanese」の中身をコピーしないと動作しない
実行
pdftotext -enc EUC-JP [PDFファイル名] [出力したいテキストファイル名]
と実行する。*1
出力結果は日本語がEUCコードであるため、メモ帳やTextPadでは開けない*2。TeraPadやK2Editorで開くことになる。
SHIFT-JISによる出力の設定を誰か行って欲しい。