PDFファイルにしかない表をExcelに読み込んで再活用するTech TIPS

PDF文書に含まれる表を活用したい場合、単純にコピーして、Microsoft Excelに貼り付けると、表の構造が崩れたり、書式が失われたりする。これを元の表のように整え直すのは結構手間のかかる作業となる。実は、簡単に表の構造や書式を維持してコピーできる方法がある。

» 2020年02月27日 05時00分 公開
[塩田紳二]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

「Tech TIPS」のインデックス

連載目次

対象:Excel 2013/2016/2019


PDF形式で配布されている資料から表をExcelに読み込む PDF形式で配布されている資料から表をExcelに読み込む
行政関係のPDF文書には、表形式のデータが含まれることが少なくない。こうした情報はMicrosoft Excelに取り込むことで並べ替えなどが可能になり、より有効に活用できることがある。画面は、東京都新宿区の「しんじゅく保育施設ガイド(令和2年度入園版)」内の表をExcelに読み込んだ例。

 最近では多くのドキュメントがPDF形式で配布されている。WebブラウザにPDFビュワー機能が組み込まれているため、比較的簡単に中身を見ることができるからだ。さまざまな環境で、同じレイアウトや書式で閲覧可能なため、見積書や請求書などをPDF形式で送付するといったことも一般的になっている。

 しかし、その中の情報は、「Microsoft Excel(エクセル)」で扱う方が便利なものが少なくない。特に表をそのままPDFにしているような場合、Excelに読み込んで、ソートやフィルタリングを行えば、よりデータが活用できる。また、過去に送付したPDF化した見積書を活用したい、PDF形式のカタログにある価格表を修正してプレゼン資料に使いたい、といったこともあるだろう。

 そこで、本Tech TIPSではPDFファイルに含まれる表をいったん「Microsoft Word(ワード)」に読み込ませた後、Excelに読み込む方法と注意点を解説する。

PDFの表をExcelに取り込む方法

 PDFの中にある表形式のデータをExcelに取り込むには、大きく3つの方法がある。

  • 「Adobe Acrobat」など、PDFから表形式データを抽出できるソフトウェアやサービスを使う
  • PDFビュワーで表部分をコピーし、Excelに貼り付ける
  • WordでPDFを開き、表部分をコピーしてExcelに貼り付ける

 PDFをExcelに出力できるソフトウェアやWebサービスが提供されており、これらを利用すれば簡単にPDFの表をExcelに読み込ませることができる。ただ、フリーソフトウェアの利用が制限されていたり、情報漏えいの不安からWebサービスにPDFファイルをアップロードできなかったりすることもあるだろう。

 また、Acrobatなどの有償のソフトウェアを利用するというのが最も安全で安心な方法だが、ごくたまにしか利用しないソフトウェアはなかなか購入しにくいものだ。例えば、AdobeのAcrobatは、サブスクリプションで1万6560円/年(税別)と意外と高価だ(Acrobatの機能については、「Adobe Acrobat DC」参照のこと)。Acrobat以外にも、Excelに表を出力できる有償のソフトウェアはあるが、いずれにしても購入が必要になる。

 PDFビュワーで表部分をコピーして、Excelに貼り付ける方法は、既に試している人も多いと思うが、表の構造が崩れやすく、書式をコピーできず、後からの修正が大変だったという経験をしているのではないだろうか。簡易な表であれば問題ないが、複雑な表や大きな表の場合はお勧めしない。

Acrobat Readerで表をコピーして直接Excelに貼り付ける Acrobat Readerで表をコピーして直接Excelに貼り付ける
Acrobat ReaderでPDFファイルを開き、表をコピーしてExcelに貼り付けると、表の構造が崩れてしまう。

 無料で手元にある環境で、PDFの表をExcelに読み込ませるのは、Wordを経由させるのがお勧めだ。PDF内の表の書式と構造を維持したままの貼り付けが可能で、Excel側で書式なしの貼り付けを行うことでテキストのみの貼り付けも行える。

 表の構造と呼んでいる情報の中には、Excelでいう「セルの結合」も含まれ、これができるかどうかは、複雑な表をコピーするときに後処理が必要になるかどうかの大きな分かれ目になる。小さな表であれば、どんなことになっても手作業で直すことも可能だが、PDFで数ページ以上になる表の全行を修正するのもかなり大変である。

 書式は不要ではと感じる人もいるかもしれない。だが、例えば技術系の文書から表情報を抜き出すような場合、書式情報が抜けると「xの2乗(x2)」のような上付き数字が全て「x2」になり、単なる「x」と「2」の組合せや、xに下付き数字で2になっているもの(x2)との区別ができなくなってしまう。もちろん、使い方や仕事の分野などに応じて必要性は異なるだろう。それでも、書式を維持したままの表のコピーが必要な場合もあることは留意しておいたほうがいいだろう。

(注意)内容をコピー可能なPDFファイルの条件

 PDFには、内容をコピーできるものとそうでないものがある。この後の手順にも影響するため、まずは内容をコピーできないPDFファイルの見分け方を解説しておく。

 PDFは、改ざんや情報漏えい防止のため、「セキュリティ設定」でPDF内の情報のコピーを禁止できる。セキュリティ設定で内容のコピーが禁止されている場合、PDF作成時に設定したパスワードを知らないと、これを解除できない。

 内容のコピーが禁止されている場合、有償ソフトウェア(例えばAdobeのAcrobatなど)を含め、基本的にPDFから表データを取り出すことができない(絶対にできないわけではないが、法的な問題に関連するためここでは触れない)。以後の説明では、暗号化されておらず、内容のコピーが可能なPDF文書だけを対象とする。

 セキュリティ設定に関しては、Acrobat Readerなど無料のPDFビュワーが持つPDFファイルのプロパティ表示機能で調べることができる。

PDFファイルのセキュリティ設定を確認する(1) PDFファイルのセキュリティ設定を確認する(1)
Acrobat Readerで[ファイル]メニューを選択し、[文書のプロパティ]ダイアログを開く。[ファイル]メニューの[Word、ExcelまたはPowerPointに変換]を選択すれば、簡単に変換できそうだが、この項目を利用するにはサブスクリプションの契約が必要。
PDFファイルのセキュリティ設定を確認する(2) PDFファイルのセキュリティ設定を確認する(2)
[文書のプロパティ]ダイアログの[セキュリティ]タブを開くと、「文書に関する制限の概要」で文書がコピー可能かどうかの確認ができる。

 なお、原理的には、セキュリティ設定がなされていても内容のコピーが可能な場合もあり得る。しかし、多くの場合、セキュリティ設定が行われていると内容のコピーが制限されている。これは、PDFファイルを生成するときのセキュリティ設定で、複数の項目をまとめてオン/オフするようなダイアログが最初に表示されるからだ。基本的には作成者の考え次第だがセキュリティ設定は、改ざん防止や情報漏えい防止を目的としているので、内容のコピーを禁止することが普通である(内容のコピーができると、新規PDFに内容をコピーして改ざん文書を作成可能になる)。

Wordを使ってPDFから表を取り出す

 Wordには、PDFを読み込んで編集する機能があり、PDF文書内の表データを正しく認識し、Wordの表に変換できる。この機能を使い、PDFから読み込まれたWordの表データをExcelに書式付きでコピーすることが可能になる。

 WordとExcelは同じMicrosoft Officeに属するため、書式情報が共通で、書式などの欠落を最小に抑えた状態でコピー&ペーストが行える。ただし、この作業はローカル版のWordでのみ可能で、オンライン版Wordでは行うことはできない。

 具体的な手順は以下のようになる。

  1. ダウンロードしたPDFファイルをWordで開く(PDFファイルの開き方は、通常のWord文書ファイルなどと同様)
  2. 必要部分を選択して[編集]−[コピー]を行う
  3. Excelを起動して貼り付けを行う
Wordを使ってPDFから表を取り出す(1) Wordを使ってPDFから表を取り出す(1)
PDFファイルをWordで開く。「変換に時間がかかる」旨の警告ダイアログが表示されるので、[OK]ボタンをクリックする。
Wordを使ってPDFから表を取り出す(2) Wordを使ってPDFから表を取り出す(2)
書式やレイアウトなどが維持されたまま、PDFファイルの内容がWordに取り込まれる。Excelにしたい表を選択して、コピーする。これをExcelに貼り付けると、書式や表の構造を維持したままPDF内の表をExcelへ貼り付けられる。
Wordを使ってPDFから表を取り出す(3) Wordを使ってPDFから表を取り出す(3)
Excelに[元の書式を保持]を選択して貼り付ける。
Wordを使ってPDFから表を取り出す(4) Wordを使ってPDFから表を取り出す(4)
下付き文字などの書式や表の構造を維持したままPDF内の表をExcelへ貼り付けられる。セルの幅などを調整する。

 Excelに貼り付けを行う際には、[元の書式を維持]を選択することで文字属性や書式設定、セルの結合といった書式情報を維持したままの貼り付けが可能になる。一方、[貼り付け先の書式に合わせる]を選択すると、テキストのみが貼り付けられる。このときには、セル結合状態などはコピーされないため、表の構造が変わってしまうことがある。

テキストのみの表をExcel貼り付ける テキストのみの表をExcel貼り付ける
Excelに貼り付けるときに、[貼り付け先の書式に合わせる]を選択して、書式未設定のセルに貼り付けるとテキストのみの表を貼り付けることもできる。

 貼り付けに関しては、オンライン版Excelでも行える。ただし、オンライン版とローカル版の仕様の違いから、書式付きの貼り付けを行った場合、再現性できない書式もある点に注意したい。

PDFビュワーからExcelに変換する

 Acrobat ReaderなどのPDFビュワーからExcelに表を貼り付ける方法も解説しておく。PDFビュワーから必要な表がすぐに貼り付けられると便利だろう。ただし、前述の通り、この方法で貼り付け可能なのは簡易な表に限定される。

Copyright© Digital Advantage Corp. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。