【 pdftotext 】コマンド――PDFファイルからテキストを抽出する：Linux基本コマンドTips（286）

本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。

» 2019年03月01日 05時00分公開

[西村めぐみ，＠IT]

Linux基本コマンドTips一覧

　本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。

実行例

PDFファイルからテキストを抽出する

pdftotextコマンドとは？

　「pdftotext」はPDFファイルからテキストを抽出するコマンドです。

目次に戻る

pdftotextコマンドの書式

pdftotext [オプション] PDFファイル [保存ファイル]

※[ ]は省略可能な引数を示しています。

目次に戻る

pdftotextの主なオプション


短いオプション	意味
-f ページ番号	開始ページを指定する
-l ページ番号	終了ページを指定する
-enc エンコーディング	文字コードを指定する（デフォルトはUTF-8）
-listenc	使用できるエンコーディングを一覧表示する
-eol 形式	改行コードのスタイルを「unix」「dos」「mac」の形式で指定する（デフォルトはunixで、LFを出力）
-nopgbrk	ページ間で改ページコードを出力しない
-opw パスワード	PDFのオーナーパスワードを指定する
-upw パスワード	PDFのユーザーパスワードを指定する
-q	エラーメッセージを出力しない

目次に戻る

PDFファイルからテキストを抽出する

　「pdftotext PDFファイル保存ファイル」で、PDFファイルからテキストだけを抽出して、保存ファイルに出力します（画面1、画面2）。

　保存ファイル名を指定しなかった場合、PDFファイルの拡張子を「.txt」に変えた名前のファイルに出力します。例えば「pdftotext sample.pdf」を実行した場合、sample.pdfが含むテキストをsample.txtに保存します。出力ファイルが既にある場合は上書きします。

　出力する範囲を指定したい場合は、「-f 開始ページ」と「-l 終了ページ」を指定します。

コマンド実行例

pdftotext sample.pdf save.txt

（sample.pdfに含まれているテキストをsave.txtに保存する）

pdftotext sample.pdf

（sample.pdfに含まれているテキストをsample.txtに保存する）

pdftotext -f 5 sample.pdf

（5ページ目以降のテキストを保存する）

pdftotext -f 2 -l 2 sample.pdf

（2ページ目のテキストを保存する）

pdftotext -l 3 sample.pdf

（先頭から3ページ目までのテキストを保存する）

画面1　PDFファイルの例　Webページ（https://ja.wikipedia.org/wiki/Portable_Document_Format）を「wkhtmltopdf」コマンドでPDF化したもの）

画面2　PDFファイルからテキストを抽出したところ

目次に戻る

筆者紹介

西村めぐみ（にしむらめぐみ）

PC-9801NからのDOSユーザー。PC-486DX時代にDOS版UNIX-like toolsを経てLinuxへ。1992年より生産管理のパッケージソフトウェアの開発およびサポート業務を担当。著書に『図解でわかるLinux』『らぶらぶLinuxシリーズ』『Accessではじめるデータベース超入門［改訂2版］』『macOSコマンド入門』など。2011年より、地方自治体の在宅就業支援事業にてPC基礎およびMicrosoft Office関連の教材作成およびeラーニング指導を担当。