本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、PDFファイルからテキストを抽出する「pdftotext」コマンドです。
「pdftotext」はPDFファイルからテキストを抽出するコマンドです。
pdftotext [オプション] PDFファイル [保存ファイル]
※[ ]は省略可能な引数を示しています。
短いオプション | 意味 |
---|---|
-f ページ番号 | 開始ページを指定する |
-l ページ番号 | 終了ページを指定する |
-enc エンコーディング | 文字コードを指定する(デフォルトはUTF-8) |
-listenc | 使用できるエンコーディングを一覧表示する |
-eol 形式 | 改行コードのスタイルを「unix」「dos」「mac」の形式で指定する(デフォルトはunixで、LFを出力) |
-nopgbrk | ページ間で改ページコードを出力しない |
-opw パスワード | PDFのオーナーパスワードを指定する |
-upw パスワード | PDFのユーザーパスワードを指定する |
-q | エラーメッセージを出力しない |
「pdftotext PDFファイル 保存ファイル」で、PDFファイルからテキストだけを抽出して、保存ファイルに出力します(画面1、画面2)。
保存ファイル名を指定しなかった場合、PDFファイルの拡張子を「.txt」に変えた名前のファイルに出力します。例えば「pdftotext sample.pdf」を実行した場合、sample.pdfが含むテキストをsample.txtに保存します。出力ファイルが既にある場合は上書きします。
出力する範囲を指定したい場合は、「-f 開始ページ」と「-l 終了ページ」を指定します。
pdftotext sample.pdf save.txt
(sample.pdfに含まれているテキストをsave.txtに保存する)
pdftotext sample.pdf
(sample.pdfに含まれているテキストをsample.txtに保存する)
pdftotext -f 5 sample.pdf
(5ページ目以降のテキストを保存する)
pdftotext -f 2 -l 2 sample.pdf
(2ページ目のテキストを保存する)
pdftotext -l 3 sample.pdf
(先頭から3ページ目までのテキストを保存する)
西村 めぐみ(にしむら めぐみ)
PC-9801NからのDOSユーザー。PC-486DX時代にDOS版UNIX-like toolsを経てLinuxへ。1992年より生産管理のパッケージソフトウェアの開発およびサポート業務を担当。著書に『図解でわかるLinux』『らぶらぶLinuxシリーズ』『Accessではじめるデータベース超入門[改訂2版]』『macOSコマンド入門』など。2011年より、地方自治体の在宅就業支援事業にてPC基礎およびMicrosoft Office関連の教材作成およびeラーニング指導を担当。
Copyright © ITmedia, Inc. All Rights Reserved.