PDFファイルで受け取ったファイル内の文字列が選択できず、テキスト化できないことがある。これは、PDFファイル内のデータが画像になっているケースが多い。このような場合、OCR機能を使って、PDFをテキスト化するとよい。その方法を紹介しよう。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
対象:PDFファイル(Windows 11)
領収書などをPDFファイルで受け取った際、社内システムに入力したり、集計したりするため、PDF内の金額などの文字列をコピーすることも多いのではないだろうか。ただ、PDFファイルによっては、文字列がコピーできず、PDFを見ながら仕方なく手動で入力していることもあると思う。手動で入力すると、手間がかかるうえに、間違えも発生しやすい。
また、こうしたPDFファイルは、Tech TIPS「PDFファイルをWord/Excelファイルに変換して編集する方法」でファイルの変換を試しても、変換できないことが多い。
こうした文字列がコピーできないPDFは、PDFの中身が画像になっていることが多いので、OCR(光学的文字認識)機能を使って画像から文字を読み取らせるとよい。その方法を幾つか紹介しよう。
「Microsoft 365」のOffice製品をインストールするなどした際にインストールされる「Microsoft OneNote」のOCR機能を使うことで、PDFやJPEG画像の文字を読み取らせることができる。
OneNoteには、「Windows 10」に付属していたバージョンの他、複数の入手経路があり、アプリケーションとしてはほぼ同じものでありながらライセンスが異なっている点に注意してほしい。特に商用利用の可否については、下表のように異なっている。Microsoft 365を契約していたり、Office製品を購入していたりする場合は、問題なくOneNoteの商用利用が可能だ。その他のバージョンの商用利用についてはご自身で確認してほしい。本Tech TIPSではMicrosoft 365版のOneNoteを例にOCRを実行する手順を紹介する。
配布形態 | 備考 | 商用利用の可否 |
---|---|---|
Windows 10付属 | Windows 10からWindows 11にバージョンアップした場合も利用可能 | 可能 |
MicrosoftのWebサイトで配布 | 「OneNote」ページでダウンロード可能 | 不可 |
Microsoft Storeで配布 | − | 不可 |
Microsoft 365/Office製品 | Officeとともにインストール | 可能 |
OneNoteのOCR機能は、OneNoteを起動し、ノートブックに新しいセクションを追加したら、そこにテキストを読み取らせたいPDFファイルをドラッグ&ドロップする。[ファイルの挿入]ダイアログが表示されるので、ここで[印刷イメージの挿入]を選択すると、新しいセクションにPDFファイルが読み込まれる。
読み込まれたPDFファイルを右クリックし、表示されたメニューの[印刷イメージのこのページからテキストをコピー]または複数ページある場合は[印刷イメージの全ページからテキストをコピー]を選択する。
これで、OCR機能により、PDF内のテキストが読み取られ、クリップボードに保存されるので、「メモ帳」アプリなどを開き、貼り付ければよい。
PDFファイルの状態にもよるが、比較的高い精度でテキスト化できるはずだ。ただ、完璧ではないので、必ず数字などに誤りがないか確認すること。
Tech TIPS「PDFファイルをWord/Excelファイルに変換して編集する方法」でも紹介した通り、PDFファイルの編集や変換が可能なWebサービスが複数提供されている。
ただ、OCR機能については、提供されていなかったり、日本語の読み取りがおこなえなかったりするWebサービスもある。編集部で調べた限り、「DeftPDF(原稿執筆時点はベータ版)」「iLovePDF」「Light PDF」「PDF24 Tools」の4つのWebサービスが、編集部で用意したテスト用の中身が画像になっているPDFファイルのOCRが可能であった。
どのWebサービスもPDFファイルをドラッグ&ドロップして、文書の言語を指定、OCRの開始ボタンをクリックすれば、PDFファイルのOCRが開始される。「iLovePDF」と「PDF24 Tools」は、オリジナルのPDF(画像)に透明テキストを埋め込んだPDFに変換される。そのため、文字を抽出するためには、PDFビュワーで開いて、文字部分を選択して、コピー&貼り付けする必要がある。
「DeftPDF」は、抽出したテキストのみが出力される。「Light PDF」は出力先として、Wordファイル(.docxファイル)やプレーンテキスト(.txtファイル)などが選択できる。ただし、ダウンロードにはログインが必要になる(GoogleアカウントやFacebookアカウントも可能)。
ここでは、編集部で用意したテスト用PDFファイルのOCR結果がもっとも優れており、使い勝手のよかった「Light PDF」を例にPDFファイルのOCR機能を紹介しよう。
前述の通り、WebブラウザでWebサービスを開き、PDFファイルをドラッグ&ドロップし、「認識モード」で[標準][強化]のいずれかを選び、「言語認識」で[日本語]を選択し、「出力フォーマット」で[Word(.docx)][Excel(.xlsx)][PPT(.pptx)][PDF(.pdf)][プレーンテキスト(.txt)]から出力したいファイルフォーマットを選択する。
[OCR]ボタンをクリックすると、画面が切り替わり、[ファイルをダウンロード]ボタンが表示された画面になる。ログインした状態で実行した場合、この画面が表示されるのと同時にファイルがダウンロードされる。ログインしていない場合は、ここで[ファイルをダウンロード]ボタンをクリックすると、ログインが求められるので、Googleアカウントなどでログインを行うと、変換したファイルがダウンロードできる。
「認識モード」の[標準]と[強化]のそれぞれの出力結果の例を下画面で示す。[標準]でも比較的認識精度が高いものの、[強化]にすると、[標準]では文字化けのようになっていた片仮名の「バ」も正しく認識された。この結果を見ると、「認識モード」は[強化]を選択しておくと、処理時間がかかるものの、文字認識の精度が上がりそうだ。
なおLight PDFは、無料で変換できるのが1日3回までとなっている。4回以上のOCRが必要な場合は有償プラン(商用版は年間8390円)への申し込みが必要になる。どうしても無料で制限なくOCRを行いたいのであれば、他のWebサービスも試してみるとよいだろう。
Copyright© Digital Advantage Corp. All Rights Reserved.