検索
連載

PDF内の画像からOCR機能でテキストを生成する方法Tech TIPS

PDFファイルで受け取ったファイル内の文字列が選択できず、テキスト化できないことがある。これは、PDFファイル内のデータが画像になっているケースが多い。このような場合、OCR機能を使って、PDFをテキスト化するとよい。その方法を紹介しよう。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
「Tech TIPS」のインデックス

連載目次

対象:PDFファイル(Windows 11)


文字がコピーできないPDFファイルをOCR機能でテキストを抽出する
文字がコピーできないPDFファイルをOCR機能でテキストを抽出する
PDFファイルの中身が画像になっていると、PDF内の文字をコピーすることができない。PDFを見ながら、他のアプリケーションにコピーするのは面倒だし、ミスも発生しがちだ。そこで、OCR機能を使って、PDFファイルからテキストを抽出する方法を紹介しよう。

 領収書などをPDFファイルで受け取った際、社内システムに入力したり、集計したりするため、PDF内の金額などの文字列をコピーすることも多いのではないだろうか。ただ、PDFファイルによっては、文字列がコピーできず、PDFを見ながら仕方なく手動で入力していることもあると思う。手動で入力すると、手間がかかるうえに、間違えも発生しやすい。

 また、こうしたPDFファイルは、Tech TIPS「PDFファイルをWord/Excelファイルに変換して編集する方法」でファイルの変換を試しても、変換できないことが多い。

 こうした文字列がコピーできないPDFは、PDFの中身が画像になっていることが多いので、OCR(光学的文字認識)機能を使って画像から文字を読み取らせるとよい。その方法を幾つか紹介しよう。

OneNoteを使ってPDFから文字列を抽出する

Copyright© Digital Advantage Corp. All Rights Reserved.

ページトップに戻る