namazuを参考にしたXPDFの導入

 WindowsXP環境におけるPDFtoTEXT.もちろん日本語対応.

入手

 http://www.foolabs.com/xpdf/download.htmlから、

  1. 「Win32 (built with MSVC): xpdf-3.00pl3-win32.zip (1142558 bytes)」
  2. 「Japanese: xpdf-japanese.tar.gz (494624 bytes)」

 をダウンロードする。

設置

  1. 「C:\usr\local\share\xpdf」に「xpdf-3.00pl3-win32.zip」を解凍する
  2. 「xpdf-japanese.tar.gz」を解凍しディレクトリ名「xpdf-japanese」を「japanese」にリネームして「C:\usr\local\share\xpdf」に置く
  3. sample-xpdfrcをXpdfrcにリネーム

環境設定

  1. 環境変数のPathに「C:\usr\local\share\xpdf」を追加する
  2. 「C:\usr\local\share\xpdf」の「Xpdfrc」最下部に以下の内容をコピーする
 textEncoding		EUC-JP
 #----- begin Japanese support package (2004-jul-27)
 cidToUnicode	Adobe-Japan1	.\japanese\Adobe-Japan1.cidToUnicode
 unicodeMap	ISO-2022-JP	.\japanese\ISO-2022-JP.unicodeMap
 unicodeMap	EUC-JP		.\japanese\EUC-JP.unicodeMap
 unicodeMap	Shift-JIS	.\japanese\Shift-JIS.unicodeMap
 cMapDir		Adobe-Japan1	.\japanese\CMap
 toUnicodeDir			.\japanese\CMap
 displayCIDFontX	Adobe-Japan1	"-*-fixed-medium-r-normal-*-%s-*-*-*-*-*-jisx0208.1983-0" ISO-2022-JP
 #----- end Japanese support package

 「D:\Resource」に「C:\usr\local\share\xpdf\japanese」の中身をコピーしないと動作しない

実行

 コマンドプロンプトで、

 pdftotext -enc EUC-JP [PDFファイル名] [出力したいテキストファイル名]

 と実行する。*1
 出力結果は日本語がEUCコードであるため、メモ帳やTextPadでは開けない*2TeraPadやK2Editorで開くことになる。
 SHIFT-JISによる出力の設定を誰か行って欲しい。

*1:テキストファイル名は省略可能。拡張子が.pdfから.texに変換されて出力される

*2:-enc EUC-JPオプションをつけないと日本語がうまく通らない。と言われている