Microsoft Research、小規模言語モデル(SLM)の「Phi-2」を発表 MITライセンスで商用利用も可能最大25倍のモデルに匹敵または上回る性能

Microsoft Researchは、小規模言語モデル(SLM)の「Phi-2」を発表した。27億パラメーターを持つ言語モデルだが、最大25倍の大規模言語モデルに匹敵する性能を持つとしている。

» 2024年01月10日 11時30分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Microsoft Researchの機械学習基盤チームは2023年12月12日(米国時間)、小規模言語モデル(SLM)の「Phi-2」を発表した。

 Microsoft Researchは過去数カ月の間、SLMの研究開発を進めてきた。これまで、Pythonコーディングに特化した13億パラメーターを持つ「Phi-1」や、推論能力と言語理解に焦点を当てた「Phi-1.5」をリリースしてきた。Phi-2は27億パラメーターのSLMであり、さまざまなベンチマークにおいて、最大25倍の大規模言語モデル(LLM)に匹敵する性能を持つという。

Phi-2の特徴

 Microsoft Researchは、数百億のパラメーターを持つ言語モデルと同等の性能を小規模なモデルで達成することを目的に、Phiの研究開発を進めてきた。Phi-2の特徴として次の2つを挙げている。

 1つ目は、学習データの質だ。チームは「教科書品質」のデータに焦点を当てており、トレーニングデータには、科学、日常活動、心に関する理論をはじめ、常識的な推論と一般的な知識をモデルに教えるために特別に作成されたデータセットが含まれている。さらに、教育的価値とコンテンツの質に基づいてフィルタリングし、厳選したWebデータで学習コーパスを補強する。

 2つ目は、13億パラメーターのモデルであるPhi-1.5の知識を27億パラメーターのPhi-2に埋め込んだことだ。このスケールアップされた知識の伝達は、トレーニングの収束を早めるだけでなく、Phi-2ベンチマークのスコアを向上させた。

 Microsoft Researchは、一般的な言語モデルとPhi-2をBig Bench Hard(BBH)、常識推論、言語理解、計算、コーディングなどのベンチマークで比較した。ベンチマーク結果によると、Phi-2はさまざまな項目で、70億および130億のパラメーターを持つMistralおよびLlama-2モデルの性能を上回ったという。

モデル サイズ BBH 常識推論 言語理解 計算 コーディング
Llama-2 70億 40.0 62.2 56.7 16.5 21.0
130億 47.8 65.0 61.9 34.2 25.4
700億 66.5 69.2 67.6 64.1 38.3
Mistral 70億 57.2 66.4 63.7 46.4 39.4
Phi-2 27億 59.2 68.8 62.0 61.1 53.7
一般的なオープンソースのSLMと比較したベンチマークの平均性能

 Phi-2は、サイズが小さいにもかかわらず、最近発表された「Google Gemini Nano 2」に匹敵するか、上回っていることも特筆すべき点だと、Microsoft Researchは述べている。

モデル サイズ BBH BooIQ MBPP MMLU
Gemini Nano 2 32億 42.4 79.3 27.2 55.8
Phi-2 27億 59.3 83.3 59.1 56.7
Phi-2とGemini Nano 2モデルのベンチマーク比較(BooIQは質問応答タスク、MBPPはPythonプログラミングタスク、MMLUは複数の言語理解タスク)

 Phi-2は2024年1月6日(米国時間)、MITライセンスに変更され、無償での商用利用も可能となった。

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。