PDF内の画像からOCR機能でテキストを生成する方法Tech TIPS

PDFファイルで受け取ったファイル内の文字列が選択できず、テキスト化できないことがある。これは、PDFファイル内のデータが画像になっているケースが多い。このような場合、OCR機能を使って、PDFをテキスト化するとよい。その方法を紹介しよう。

» 2023年09月11日 05時00分 公開
[小林章彦デジタルアドバンテージ]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

「Tech TIPS」のインデックス

連載目次

対象:PDFファイル(Windows 11)


文字がコピーできないPDFファイルをOCR機能でテキストを抽出する 文字がコピーできないPDFファイルをOCR機能でテキストを抽出する
PDFファイルの中身が画像になっていると、PDF内の文字をコピーすることができない。PDFを見ながら、他のアプリケーションにコピーするのは面倒だし、ミスも発生しがちだ。そこで、OCR機能を使って、PDFファイルからテキストを抽出する方法を紹介しよう。

 領収書などをPDFファイルで受け取った際、社内システムに入力したり、集計したりするため、PDF内の金額などの文字列をコピーすることも多いのではないだろうか。ただ、PDFファイルによっては、文字列がコピーできず、PDFを見ながら仕方なく手動で入力していることもあると思う。手動で入力すると、手間がかかるうえに、間違えも発生しやすい。

 また、こうしたPDFファイルは、Tech TIPS「PDFファイルをWord/Excelファイルに変換して編集する方法」でファイルの変換を試しても、変換できないことが多い。

 こうした文字列がコピーできないPDFは、PDFの中身が画像になっていることが多いので、OCR(光学的文字認識)機能を使って画像から文字を読み取らせるとよい。その方法を幾つか紹介しよう。

OneNoteを使ってPDFから文字列を抽出する

Copyright© Digital Advantage Corp. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。