PDFファイルにしかない表をExcelに読み込んで再活用する:Tech TIPS
PDF文書に含まれる表を活用したい場合、単純にコピーして、Microsoft Excelに貼り付けると、表の構造が崩れたり、書式が失われたりする。これを元の表のように整え直すのは結構手間のかかる作業となる。実は、簡単に表の構造や書式を維持してコピーできる方法がある。
対象:Excel 2013/2016/2019
PDF形式で配布されている資料から表をExcelに読み込む
行政関係のPDF文書には、表形式のデータが含まれることが少なくない。こうした情報はMicrosoft Excelに取り込むことで並べ替えなどが可能になり、より有効に活用できることがある。画面は、東京都新宿区の「しんじゅく保育施設ガイド(令和2年度入園版)」内の表をExcelに読み込んだ例。
最近では多くのドキュメントがPDF形式で配布されている。WebブラウザにPDFビュワー機能が組み込まれているため、比較的簡単に中身を見ることができるからだ。さまざまな環境で、同じレイアウトや書式で閲覧可能なため、見積書や請求書などをPDF形式で送付するといったことも一般的になっている。
しかし、その中の情報は、「Microsoft Excel(エクセル)」で扱う方が便利なものが少なくない。特に表をそのままPDFにしているような場合、Excelに読み込んで、ソートやフィルタリングを行えば、よりデータが活用できる。また、過去に送付したPDF化した見積書を活用したい、PDF形式のカタログにある価格表を修正してプレゼン資料に使いたい、といったこともあるだろう。
そこで、本Tech TIPSではPDFファイルに含まれる表をいったん「Microsoft Word(ワード)」に読み込ませた後、Excelに読み込む方法と注意点を解説する。
PDFの表をExcelに取り込む方法
PDFの中にある表形式のデータをExcelに取り込むには、大きく3つの方法がある。
- 「Adobe Acrobat」など、PDFから表形式データを抽出できるソフトウェアやサービスを使う
- PDFビュワーで表部分をコピーし、Excelに貼り付ける
- WordでPDFを開き、表部分をコピーしてExcelに貼り付ける
PDFをExcelに出力できるソフトウェアやWebサービスが提供されており、これらを利用すれば簡単にPDFの表をExcelに読み込ませることができる。ただ、フリーソフトウェアの利用が制限されていたり、情報漏えいの不安からWebサービスにPDFファイルをアップロードできなかったりすることもあるだろう。
また、Acrobatなどの有償のソフトウェアを利用するというのが最も安全で安心な方法だが、ごくたまにしか利用しないソフトウェアはなかなか購入しにくいものだ。例えば、AdobeのAcrobatは、サブスクリプションで1万6560円/年(税別)と意外と高価だ(Acrobatの機能については、「Adobe Acrobat DC」参照のこと)。Acrobat以外にも、Excelに表を出力できる有償のソフトウェアはあるが、いずれにしても購入が必要になる。
PDFビュワーで表部分をコピーして、Excelに貼り付ける方法は、既に試している人も多いと思うが、表の構造が崩れやすく、書式をコピーできず、後からの修正が大変だったという経験をしているのではないだろうか。簡易な表であれば問題ないが、複雑な表や大きな表の場合はお勧めしない。
無料で手元にある環境で、PDFの表をExcelに読み込ませるのは、Wordを経由させるのがお勧めだ。PDF内の表の書式と構造を維持したままの貼り付けが可能で、Excel側で書式なしの貼り付けを行うことでテキストのみの貼り付けも行える。
表の構造と呼んでいる情報の中には、Excelでいう「セルの結合」も含まれ、これができるかどうかは、複雑な表をコピーするときに後処理が必要になるかどうかの大きな分かれ目になる。小さな表であれば、どんなことになっても手作業で直すことも可能だが、PDFで数ページ以上になる表の全行を修正するのもかなり大変である。
書式は不要ではと感じる人もいるかもしれない。だが、例えば技術系の文書から表情報を抜き出すような場合、書式情報が抜けると「xの2乗(x2)」のような上付き数字が全て「x2」になり、単なる「x」と「2」の組合せや、xに下付き数字で2になっているもの(x2)との区別ができなくなってしまう。もちろん、使い方や仕事の分野などに応じて必要性は異なるだろう。それでも、書式を維持したままの表のコピーが必要な場合もあることは留意しておいたほうがいいだろう。
(注意)内容をコピー可能なPDFファイルの条件
PDFには、内容をコピーできるものとそうでないものがある。この後の手順にも影響するため、まずは内容をコピーできないPDFファイルの見分け方を解説しておく。
PDFは、改ざんや情報漏えい防止のため、「セキュリティ設定」でPDF内の情報のコピーを禁止できる。セキュリティ設定で内容のコピーが禁止されている場合、PDF作成時に設定したパスワードを知らないと、これを解除できない。
内容のコピーが禁止されている場合、有償ソフトウェア(例えばAdobeのAcrobatなど)を含め、基本的にPDFから表データを取り出すことができない(絶対にできないわけではないが、法的な問題に関連するためここでは触れない)。以後の説明では、暗号化されておらず、内容のコピーが可能なPDF文書だけを対象とする。
セキュリティ設定に関しては、Acrobat Readerなど無料のPDFビュワーが持つPDFファイルのプロパティ表示機能で調べることができる。
PDFファイルのセキュリティ設定を確認する(1)
Acrobat Readerで[ファイル]メニューを選択し、[文書のプロパティ]ダイアログを開く。[ファイル]メニューの[Word、ExcelまたはPowerPointに変換]を選択すれば、簡単に変換できそうだが、この項目を利用するにはサブスクリプションの契約が必要。
なお、原理的には、セキュリティ設定がなされていても内容のコピーが可能な場合もあり得る。しかし、多くの場合、セキュリティ設定が行われていると内容のコピーが制限されている。これは、PDFファイルを生成するときのセキュリティ設定で、複数の項目をまとめてオン/オフするようなダイアログが最初に表示されるからだ。基本的には作成者の考え次第だがセキュリティ設定は、改ざん防止や情報漏えい防止を目的としているので、内容のコピーを禁止することが普通である(内容のコピーができると、新規PDFに内容をコピーして改ざん文書を作成可能になる)。
Wordを使ってPDFから表を取り出す
Wordには、PDFを読み込んで編集する機能があり、PDF文書内の表データを正しく認識し、Wordの表に変換できる。この機能を使い、PDFから読み込まれたWordの表データをExcelに書式付きでコピーすることが可能になる。
WordとExcelは同じMicrosoft Officeに属するため、書式情報が共通で、書式などの欠落を最小に抑えた状態でコピー&ペーストが行える。ただし、この作業はローカル版のWordでのみ可能で、オンライン版Wordでは行うことはできない。
具体的な手順は以下のようになる。
- ダウンロードしたPDFファイルをWordで開く(PDFファイルの開き方は、通常のWord文書ファイルなどと同様)
- 必要部分を選択して[編集]−[コピー]を行う
- Excelを起動して貼り付けを行う
Wordを使ってPDFから表を取り出す(2)
書式やレイアウトなどが維持されたまま、PDFファイルの内容がWordに取り込まれる。Excelにしたい表を選択して、コピーする。これをExcelに貼り付けると、書式や表の構造を維持したままPDF内の表をExcelへ貼り付けられる。
Excelに貼り付けを行う際には、[元の書式を維持]を選択することで文字属性や書式設定、セルの結合といった書式情報を維持したままの貼り付けが可能になる。一方、[貼り付け先の書式に合わせる]を選択すると、テキストのみが貼り付けられる。このときには、セル結合状態などはコピーされないため、表の構造が変わってしまうことがある。
貼り付けに関しては、オンライン版Excelでも行える。ただし、オンライン版とローカル版の仕様の違いから、書式付きの貼り付けを行った場合、再現性できない書式もある点に注意したい。
PDFビュワーからExcelに変換する
Acrobat ReaderなどのPDFビュワーからExcelに表を貼り付ける方法も解説しておく。PDFビュワーから必要な表がすぐに貼り付けられると便利だろう。ただし、前述の通り、この方法で貼り付け可能なのは簡易な表に限定される。
Copyright© Digital Advantage Corp. All Rights Reserved.