Linux Tips | |
![]() |
PDFファイルからテキストを抽出するには 北浦訓行 |
PDFファイルからテキストを抽出するには、pdftotextコマンドを使用する。pdftotextコマンドは、Xpdf(http://www.foolabs.com/xpdf/)に含まれている。Fedora Core 3(FC3)にはXpdfのパッケージが用意されており、
# yum install xpdf |
でインストール可能だ。
Xpdfのインストールが終わったら、設定を行う。全ユーザーに対して設定を有効にする場合は、rootで/etc/xpdfrcの
#textEncoding UTF-8 |
という行の「#」を削除して、コメントアウトを解除する。
自分だけに有効な設定を行う場合は、ユーザーのホームディレクトリに.xpdfrcというファイルを作成し、
textEncoding UTF-8 |
と記述する(EUCのシステムの場合は「EUC-JP」)。
以上で設定は完了だ。以下のコマンドを実行すると、PDFファイルに含まれるテキストを別ファイルに出力できる。
$ pdftotext sample.pdf sample.txt |
pdftotextコマンドは、textEncodingで指定した文字コードでテキストファイルを生成する。場合によって文字コードを変更したい場合は、-encオプションで適切な文字コードを指定する。
$ pdftotext -enc EUC-JP sample.pdf sample.euc ←EUCで出力 |
pdftotextコマンドでよく使用するオプションは、以下のとおり。
オプション
|
内容
|
-f 開始ページ | 抽出開始ページを指定 |
-l 終了ページ | 抽出終了ページを指定 |
-opw パスワード | オーナーパスワード(文書の印刷や編集などを制限するためのパスワード)を指定 |
-upw パスワード | ユーザーパスワード(文書を開くためのパスワード)を指定 |
-layout | オリジナルに近いレイアウトでテキストを出力 |
-htmlmeta | HTML形式で出力 |
-enc エンコード名 | テキストファイルの文字コードを指定(UTF-8/EUC/Shift-JISなど) |
-eol 行末の形式 | end-of-lineの形式を指定(unix/dos/mac) |
![]() |
Linux Tips Index |
Linux Squareフォーラム Linux Tipsカテゴリ別インデックス |
|
Linux & OSS フォーラム 新着記事
- 【 pidof 】コマンド――コマンド名からプロセスIDを探す (2017/7/27)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、コマンド名からプロセスIDを探す「pidof」コマンドです。 - Linuxの「ジョブコントロール」をマスターしよう (2017/7/21)
今回は、コマンドライン環境でのジョブコントロールを試してみましょう。X環境を持たないサーバ管理やリモート接続時に役立つ操作です - 【 pidstat 】コマンド――プロセスのリソース使用量を表示する (2017/7/21)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、プロセスごとのCPUの使用率やI/Oデバイスの使用状況を表示する「pidstat」コマンドです。 - 【 iostat 】コマンド――I/Oデバイスの使用状況を表示する (2017/7/20)
本連載は、Linuxのコマンドについて、基本書式からオプション、具体的な実行例までを紹介していきます。今回は、I/Oデバイスの使用状況を表示する「iostat」コマンドです。
![]() |
||
|
||
![]() |
Linux & OSS 記事ランキング
本日
月間
- インメモリデータベース「Redis 8」公開 再びオープンソースとして利用可能に
- 上がり続けるOSS採用率、その理由は? 「2025 State of Open Source Report」で明らかに
- 「国連オープンソース原則」をOSIが公式支持 IT業界に与える影響は?
- Microsoft、WSLのアップデートを発表 新しい提供方式、tarベースのWSLディストリビューションアーキテクチャとは
- Linuxディストリビューション「Ubuntu 24.04.1 LTS」公開 新機能は? サポート期間は?
- 「Azure Linux」は「CentOS 7」の移行先になり得るか LinkedInの選択
- 「Llama2」やXの「Grok」などが不合格になったOSIの「オープンソースAIの定義 1.0」、その中身とは? 合格したAIは?
- オープンソースのシステム監視/アラートツールキット「Prometheus 3.0」公開 7年ぶりのメジャーリリースで何が変わった?
- オープンソースハイパーバイザー「Xen 4.20」公開 セキュリティとパフォーマンスが向上
- 全文検索エンジン「Elasticsearch」とデータ可視化ツール「Kibana」が再びオープンソースに