検索
ニュース

NASAが「約800万個のPDF」を格納した世界最大規模のアーカイブを公開探査機で太陽系を探査するだけでなかった

NASAのジェット推進研究所は世界最大級のPDFアーカイブを作成したと発表した。プライバシーの保護や脆弱性への対処、ソフトウェアの互換性に関する問題などセキュリティの研究に活用できるという。

Share
Tweet
LINE
Hatena

 NASA(アメリカ航空宇宙局)のJPL(ジェット推進研究所)は2023年6月14日(米国時間)、世界最大級のPDFアーカイブを作成したと発表した。

画像
プレスリリース

 PDFは印刷文書のような見た目であるものの、画像、動画ファイル、入力フォーム、3Dモデルなどが含まれることがあり、実際には複雑な構造になっている。

 「その複雑さゆえにマルウェアなど悪意のあるコードの隠蔽(いんぺい)に使われたり、悪意のある方法でユーザーごとに異なる情報を表示させたりといった脅威にさらされる可能性がある」とJPLは指摘。PDFアーカイブを作成することで研究者や開発者による改善活動を促し、そうした課題を解決、または予防することを目指しているという。

「完全なPDF」を収集することの難しさ

 このPDFアーカイブ(コーパス)は、国防高等研究計画局(DARPA)のプログラム「Safe Documents(SafeDocs)」の一環として作成された。PDFユーザーのセキュリティニーズを予測しながらオンラインの脅威に対処することを目的としており、非営利団体PDF Associationと協力し、これらの課題に立ち向かうための幾つかのツール開発を支援している。

 JPLによると、コーパスの構築で注意した点は過不足ないデータの収集だという。同研究所はWebクロールデータのオープンソース公開リポジトリ「Common Crawl」を使ってコーパスに含めるべきPDFを特定したものの、Common Crawlでダウンロードしたデータは1ファイル当たり1MBに制限されている。そのため、その制限以上のファイルは不完全だった(上限を超えるデータは切り捨てられた)。そこでJPLのチームは、不完全なPDFのWebアドレスからファイル全体をダウンロードする特別なソフトウェアを使用して、切り捨てられたファイルを再抽出したという。

 こうしてコーパスに格納されたPDFは800万個に上る。その中には各PDFの作成に使われたソフトウェアや各PDFのソースWebサイトのサーバ位置などのメタデータも含まれている。データセットの合計は約8TBで「この種のコーパスとしては最大規模である」とJPLは述べている。

 JPLはこのコーパスをさまざまな用途で利用してほしいと考えており、「例えば、プライバシー研究者は、これらのファイルを研究して、個人情報をよりよく保護するためにファイル作成、編集ソフトをどのように改善すればよいかを調べられる。ソフトウェア開発者なら、コードのバグを見つけたり、古いバージョンのソフトウェアが新しいバージョンのPDFと互換性があるかどうかをチェックしたりするために、このファイルを使うことができる」としている。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る