NASAが「約800万個のPDF」を格納した世界最大規模のアーカイブを公開:探査機で太陽系を探査するだけでなかった
NASAのジェット推進研究所は世界最大級のPDFアーカイブを作成したと発表した。プライバシーの保護や脆弱性への対処、ソフトウェアの互換性に関する問題などセキュリティの研究に活用できるという。
NASA(アメリカ航空宇宙局)のJPL(ジェット推進研究所)は2023年6月14日(米国時間)、世界最大級のPDFアーカイブを作成したと発表した。
PDFは印刷文書のような見た目であるものの、画像、動画ファイル、入力フォーム、3Dモデルなどが含まれることがあり、実際には複雑な構造になっている。
「その複雑さゆえにマルウェアなど悪意のあるコードの隠蔽(いんぺい)に使われたり、悪意のある方法でユーザーごとに異なる情報を表示させたりといった脅威にさらされる可能性がある」とJPLは指摘。PDFアーカイブを作成することで研究者や開発者による改善活動を促し、そうした課題を解決、または予防することを目指しているという。
「完全なPDF」を収集することの難しさ
このPDFアーカイブ(コーパス)は、国防高等研究計画局(DARPA)のプログラム「Safe Documents(SafeDocs)」の一環として作成された。PDFユーザーのセキュリティニーズを予測しながらオンラインの脅威に対処することを目的としており、非営利団体PDF Associationと協力し、これらの課題に立ち向かうための幾つかのツール開発を支援している。
JPLによると、コーパスの構築で注意した点は過不足ないデータの収集だという。同研究所はWebクロールデータのオープンソース公開リポジトリ「Common Crawl」を使ってコーパスに含めるべきPDFを特定したものの、Common Crawlでダウンロードしたデータは1ファイル当たり1MBに制限されている。そのため、その制限以上のファイルは不完全だった(上限を超えるデータは切り捨てられた)。そこでJPLのチームは、不完全なPDFのWebアドレスからファイル全体をダウンロードする特別なソフトウェアを使用して、切り捨てられたファイルを再抽出したという。
こうしてコーパスに格納されたPDFは800万個に上る。その中には各PDFの作成に使われたソフトウェアや各PDFのソースWebサイトのサーバ位置などのメタデータも含まれている。データセットの合計は約8TBで「この種のコーパスとしては最大規模である」とJPLは述べている。
JPLはこのコーパスをさまざまな用途で利用してほしいと考えており、「例えば、プライバシー研究者は、これらのファイルを研究して、個人情報をよりよく保護するためにファイル作成、編集ソフトをどのように改善すればよいかを調べられる。ソフトウェア開発者なら、コードのバグを見つけたり、古いバージョンのソフトウェアが新しいバージョンのPDFと互換性があるかどうかをチェックしたりするために、このファイルを使うことができる」としている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- コーディング用大規模言語モデル「StarCoder」とは 何がすごいのか
AI開発向けのツールを提供しているベンチャー企業Hugging Faceは、2023年5月4日(米国時間)、コーディング用大規模言語モデル(LLM)の「StarCoder」を一般公開。ベンチマークによる評価やデータセットなども併せて公開した。 - 狙われるmacOS 攻撃グループが「マルチプラットフォーム対応型マルウェア」を開発中
Kasperskyは、ランサムウェア攻撃グループ「LockBit」がmacOSやFreeBSD向けなどマルチプラットフォーム機能を強化していると発表した。LockBitが今後、その攻撃範囲を拡大し、「活動の影響の最大化を図っている」という。 - 約1200人のセキュリティ担当者に聞いた、「今、ランサムウェア対策するならどの部分から?」
Cybereasonは、セキュリティオペレーションセンターに関する調査の結果を発表した。最大の脅威として身代金要求型マルウェア「ランサムウェア」を挙げた人が49%を占め、30%以上が「ランサムウェアの脅威に対処するために、より多くの人材やサービスが必要」と回答した。