【 pdftotext 】コマンド――PDFファイルからテキストを抽出するLinux基本コマンドTips(286)

本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。

» 2019年03月01日 05時00分 公開
[西村めぐみ@IT]
「Linux基本コマンドTips」のインデックス

Linux基本コマンドTips一覧

 本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。

pdftotextコマンドとは?

 「pdftotext」はPDFファイルからテキストを抽出するコマンドです。



pdftotextコマンドの書式

pdftotext [オプション] PDFファイル [保存ファイル]

※[ ]は省略可能な引数を示しています。





pdftotextの主なオプション

短いオプション 意味
-f ページ番号 開始ページを指定する
-l ページ番号 終了ページを指定する
-enc エンコーディング 文字コードを指定する(デフォルトはUTF-8)
-listenc 使用できるエンコーディングを一覧表示する
-eol 形式 改行コードのスタイルを「unix」「dos」「mac」の形式で指定する(デフォルトはunixで、LFを出力)
-nopgbrk ページ間で改ページコードを出力しない
-opw パスワード PDFのオーナーパスワードを指定する
-upw パスワード PDFのユーザーパスワードを指定する
-q エラーメッセージを出力しない


PDFファイルからテキストを抽出する

 「pdftotext PDFファイル 保存ファイル」で、PDFファイルからテキストだけを抽出して、保存ファイルに出力します(画面1画面2)。

 保存ファイル名を指定しなかった場合、PDFファイルの拡張子を「.txt」に変えた名前のファイルに出力します。例えば「pdftotext sample.pdf」を実行した場合、sample.pdfが含むテキストをsample.txtに保存します。出力ファイルが既にある場合は上書きします。

 出力する範囲を指定したい場合は、「-f 開始ページ」と「-l 終了ページ」を指定します。

コマンド実行例

pdftotext sample.pdf save.txt

(sample.pdfに含まれているテキストをsave.txtに保存する)

pdftotext sample.pdf

(sample.pdfに含まれているテキストをsample.txtに保存する)

pdftotext -f 5 sample.pdf

(5ページ目以降のテキストを保存する)

pdftotext -f 2 -l 2 sample.pdf

(2ページ目のテキストを保存する)

pdftotext -l 3 sample.pdf

(先頭から3ページ目までのテキストを保存する)


画面1 画面1 PDFファイルの例 Webページ(https://ja.wikipedia.org/wiki/Portable_Document_Format)を「wkhtmltopdf」コマンドでPDF化したもの)
画面2 画面2 PDFファイルからテキストを抽出したところ


筆者紹介

西村 めぐみ(にしむら めぐみ)

PC-9801NからのDOSユーザー。PC-486DX時代にDOS版UNIX-like toolsを経てLinuxへ。1992年より生産管理のパッケージソフトウェアの開発およびサポート業務を担当。著書に『図解でわかるLinux』『らぶらぶLinuxシリーズ』『Accessではじめるデータベース超入門[改訂2版]』『macOSコマンド入門』など。2011年より、地方自治体の在宅就業支援事業にてPC基礎およびMicrosoft Office関連の教材作成およびeラーニング指導を担当。


Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。