【 pdftotext 】コマンド――PDFファイルからテキストを抽出する:Linux基本コマンドTips(286)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。
pdftotextコマンドとは?
「pdftotext」はPDFファイルからテキストを抽出するコマンドです。
pdftotextコマンドの書式
pdftotext [オプション] PDFファイル [保存ファイル]
※[ ]は省略可能な引数を示しています。
pdftotextの主なオプション
短いオプション | 意味 |
---|---|
-f ページ番号 | 開始ページを指定する |
-l ページ番号 | 終了ページを指定する |
-enc エンコーディング | 文字コードを指定する(デフォルトはUTF-8) |
-listenc | 使用できるエンコーディングを一覧表示する |
-eol 形式 | 改行コードのスタイルを「unix」「dos」「mac」の形式で指定する(デフォルトはunixで、LFを出力) |
-nopgbrk | ページ間で改ページコードを出力しない |
-opw パスワード | PDFのオーナーパスワードを指定する |
-upw パスワード | PDFのユーザーパスワードを指定する |
-q | エラーメッセージを出力しない |
PDFファイルからテキストを抽出する
「pdftotext PDFファイル 保存ファイル」で、PDFファイルからテキストだけを抽出して、保存ファイルに出力します(画面1、画面2)。
保存ファイル名を指定しなかった場合、PDFファイルの拡張子を「.txt」に変えた名前のファイルに出力します。例えば「pdftotext sample.pdf」を実行した場合、sample.pdfが含むテキストをsample.txtに保存します。出力ファイルが既にある場合は上書きします。
出力する範囲を指定したい場合は、「-f 開始ページ」と「-l 終了ページ」を指定します。
コマンド実行例
pdftotext sample.pdf save.txt
(sample.pdfに含まれているテキストをsave.txtに保存する)
pdftotext sample.pdf
(sample.pdfに含まれているテキストをsample.txtに保存する)
pdftotext -f 5 sample.pdf
(5ページ目以降のテキストを保存する)
pdftotext -f 2 -l 2 sample.pdf
(2ページ目のテキストを保存する)
pdftotext -l 3 sample.pdf
(先頭から3ページ目までのテキストを保存する)
画面1 PDFファイルの例 Webページ(https://ja.wikipedia.org/wiki/Portable_Document_Format)を「wkhtmltopdf」コマンドでPDF化したもの)
筆者紹介
西村 めぐみ(にしむら めぐみ)
PC-9801NからのDOSユーザー。PC-486DX時代にDOS版UNIX-like toolsを経てLinuxへ。1992年より生産管理のパッケージソフトウェアの開発およびサポート業務を担当。著書に『図解でわかるLinux』『らぶらぶLinuxシリーズ』『Accessではじめるデータベース超入門[改訂2版]』『macOSコマンド入門』など。2011年より、地方自治体の在宅就業支援事業にてPC基礎およびMicrosoft Office関連の教材作成およびeラーニング指導を担当。
Copyright © ITmedia, Inc. All Rights Reserved.