Linux Tips | |
PDFファイルからテキストを抽出するには 北浦訓行 |
PDFファイルからテキストを抽出するには、pdftotextコマンドを使用する。pdftotextコマンドは、Xpdf(http://www.foolabs.com/xpdf/)に含まれている。Fedora Core 3(FC3)にはXpdfのパッケージが用意されており、
# yum install xpdf |
でインストール可能だ。
Xpdfのインストールが終わったら、設定を行う。全ユーザーに対して設定を有効にする場合は、rootで/etc/xpdfrcの
#textEncoding UTF-8 |
という行の「#」を削除して、コメントアウトを解除する。
自分だけに有効な設定を行う場合は、ユーザーのホームディレクトリに.xpdfrcというファイルを作成し、
textEncoding UTF-8 |
と記述する(EUCのシステムの場合は「EUC-JP」)。
以上で設定は完了だ。以下のコマンドを実行すると、PDFファイルに含まれるテキストを別ファイルに出力できる。
$ pdftotext sample.pdf sample.txt |
pdftotextコマンドは、textEncodingで指定した文字コードでテキストファイルを生成する。場合によって文字コードを変更したい場合は、-encオプションで適切な文字コードを指定する。
$ pdftotext -enc EUC-JP sample.pdf sample.euc ←EUCで出力 |
pdftotextコマンドでよく使用するオプションは、以下のとおり。
オプション
|
内容
|
-f 開始ページ | 抽出開始ページを指定 |
-l 終了ページ | 抽出終了ページを指定 |
-opw パスワード | オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定 |
-upw パスワード | ユーザーパスワード(文書を開くためのパスワード)を指定 |
-layout | オリジナルに近いレイアウトでテキストを出力 |
-htmlmeta | HTML形式で出力 |
-enc エンコード名 | テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど) |
-eol 行末の形式 | end-of-lineの形式を指定(unix/dos/mac) |
Linux Tips Index |
Linux Squareフォーラム Linux Tipsカテゴリ別インデックス |
|
Linux & OSS フォーラム 新着記事
- 【 pidof 】コマンド――コマンド名からプロセスIDを探す (2017/7/27)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、コマンド名からプロセスIDを探す「pidof」コマンドです。 - Linuxの「ジョブコントロール」をマスターしよう (2017/7/21)
今回は、コマンドライン環境でのジョブコントロールを試してみましょう。X環境を持たないサーバ管理やリモート接続時に役立つ操作です - 【 pidstat 】コマンド――プロセスのリソース使用量を表示する (2017/7/21)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、プロセスごとのCPUの使用率やI/Oデバイスの使用状況を表示する「pidstat」コマンドです。 - 【 iostat 】コマンド――I/Oデバイスの使用状況を表示する (2017/7/20)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、I/Oデバイスの使用状況を表示する「iostat」コマンドです。
|
|