連載
PDF内の画像からOCR機能でテキストを生成する方法:Tech TIPS
PDFファイルで受け取ったファイル内の文字列が選択できず、テキスト化できないことがある。これは、PDFファイル内のデータが画像になっているケースが多い。このような場合、OCR機能を使って、PDFをテキスト化するとよい。その方法を紹介しよう。
対象:PDFファイル(Windows 11)
文字がコピーできないPDFファイルをOCR機能でテキストを抽出する
PDFファイルの中身が画像になっていると、PDF内の文字をコピーすることができない。PDFを見ながら、他のアプリケーションにコピーするのは面倒だし、ミスも発生しがちだ。そこで、OCR機能を使って、PDFファイルからテキストを抽出する方法を紹介しよう。
領収書などをPDFファイルで受け取った際、社内システムに入力したり、集計したりするため、PDF内の金額などの文字列をコピーすることも多いのではないだろうか。ただ、PDFファイルによっては、文字列がコピーできず、PDFを見ながら仕方なく手動で入力していることもあると思う。手動で入力すると、手間がかかるうえに、間違えも発生しやすい。
また、こうしたPDFファイルは、Tech TIPS「PDFファイルをWord/Excelファイルに変換して編集する方法」でファイルの変換を試しても、変換できないことが多い。
こうした文字列がコピーできないPDFは、PDFの中身が画像になっていることが多いので、OCR(光学的文字認識)機能を使って画像から文字を読み取らせるとよい。その方法を幾つか紹介しよう。
OneNoteを使ってPDFから文字列を抽出する
Copyright© Digital Advantage Corp. All Rights Reserved.