検索
ニュース

IBMとNASA、科学分野の専門用語に対応する言語モデルを構築 Hugging Faceで公開宇宙物理学、惑星科学、地球科学、太陽物理学、生物物理科学に対応

IBMとNASAは、宇宙物理学、惑星科学、地球科学、太陽物理学、生物物理科学に関する文献を学習させた言語モデルを、Hugging Faceで公開した。

Share
Tweet
LINE
Hatena

 IBMとNASA(米航空宇宙局)は2024年3月13日(米国時間)、科学分野の専門用語に対応する言語モデルを構築し、Hugging Faceで公開した。

 トランスフォーマーアーキテクチャに基づくこれらの言語モデルは、分類やエンティティ抽出から質問応答、情報検索まで、さまざまなアプリケーションで使用できる。幅広い領域で高いパフォーマンスを発揮し、迅速に応答可能だという。IBMとNASAは科学、学術コミュニティーのためにHugging Faceでオープンソースとして公開している。

 トランスフォーマーベースの言語モデル(BERT、RoBERTa、IBMのSlateおよびGraniteファミリーなどを含む)は、さまざまな自然言語理解タスクに非常に有益だ。トランスフォーマーベースの言語モデルは、マスクされた言語モデリングタスクでトレーニングされる。このタスクは、一部の単語が隠された文を再構築することで学習させるというものだ。トークナイザ(単語をモデルの単位に分解する)が、膨大な語彙(ごい)を学習する上で重要な役割を果たす。

 汎用(はんよう)的なテキストトレーニングは、WikipediaやBooksCorpusのようなデータセットでトレーニングされた一般的なトークナイザを使って、効果的に学習できる。だが、科学分野では、「ホスファチジルコリン」(phosphatidylcholin:特定の構造を持つリン脂質の総称)のような専門用語のために特殊なトークナイザが必要になる。

 IBMとNASAの共同チームは、宇宙物理学、惑星科学、地球科学、太陽物理学、生物物理科学のコーパスの600億トークンでモデルをトレーニングした。一般的なトークナイザとは異なり、共同チームが開発したトークナイザは、「axes」(軸)や「polycrystalline」(多結晶の)といった科学用語を認識できる。IBM-NASAモデルが処理した5万トークンの半分以上は、Hugging Faceで公開されているオープンソースのRoBERTaモデルと比べて固有のものだった。

 分野固有の語彙でトレーニングされたIBM-NASAモデルは、バイオメディカルタスクのパフォーマンスを評価するBLURB(Biomedical Language Understanding and Reasoning Benchmark)において、オープンなRoBERTaモデルを5%上回った。また、科学的な質問応答の内部ベンチマークでF1スコアが2.4%向上し、地球科学エンティティ認識の内部テストでは結果が5.5%向上した。

 IBM-NASAのトレーニングされたエンコーダーモデルは、多くの非生成言語タスク用にファインチューニングが可能だ。検索拡張生成(RAG)により、文書検索のための情報豊富な埋め込みを生成できる。RAGは一般的に2段階のフレームワークに従う。まず、リトリーバモデルが質問をエンコードし、ベクトルデータベースから関連文書を検索する。これらの文書は次に、検索された文書に忠実であることを保証しながら質問に答える生成モデルに渡される。

 共同チームはエンコーダーモデルの上にリトリーバモデルを構築し、テキストのペア間の類似性をマッピングする情報豊富な埋め込みが生成されるようにした。

 これらのモデルは、タイトルと抄録、質問と回答など、約2億6800万件のテキストペアを使用して学習している。その結果、NASAが構成した約400の質問から成るテストセットにおいて、関連する文章の検索で高いパフォーマンスを発揮した。同様にファインチューニングされたRoBERTaモデルを6.5%上回り、埋め込み用のもう1つの有名なオープンソースモデルである「BGE-base」を5%上回った。

 IBM-NASAモデルのパフォーマンスは、特殊なトレーニングデータ、カスタムトークナイザ、トレーニング手法に起因している。エンコーダーモデルは宇宙分野向けアプリケーションのためにファインチューニングでき、リトリーバモデルはRAGの情報検索アプリケーションに使用できる。IBMとNASAは共同で、これらのモデルを用いて科学検索エンジンの強化に取り組んでいる。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る