Microsoft Researchは、小規模言語モデル(SLM)の「Phi-2」を発表した。27億パラメーターを持つ言語モデルだが、最大25倍の大規模言語モデルに匹敵する性能を持つとしている。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Microsoft Researchの機械学習基盤チームは2023年12月12日(米国時間)、小規模言語モデル(SLM)の「Phi-2」を発表した。
Microsoft Researchは過去数カ月の間、SLMの研究開発を進めてきた。これまで、Pythonコーディングに特化した13億パラメーターを持つ「Phi-1」や、推論能力と言語理解に焦点を当てた「Phi-1.5」をリリースしてきた。Phi-2は27億パラメーターのSLMであり、さまざまなベンチマークにおいて、最大25倍の大規模言語モデル(LLM)に匹敵する性能を持つという。
Microsoft Researchは、数百億のパラメーターを持つ言語モデルと同等の性能を小規模なモデルで達成することを目的に、Phiの研究開発を進めてきた。Phi-2の特徴として次の2つを挙げている。
1つ目は、学習データの質だ。チームは「教科書品質」のデータに焦点を当てており、トレーニングデータには、科学、日常活動、心に関する理論をはじめ、常識的な推論と一般的な知識をモデルに教えるために特別に作成されたデータセットが含まれている。さらに、教育的価値とコンテンツの質に基づいてフィルタリングし、厳選したWebデータで学習コーパスを補強する。
2つ目は、13億パラメーターのモデルであるPhi-1.5の知識を27億パラメーターのPhi-2に埋め込んだことだ。このスケールアップされた知識の伝達は、トレーニングの収束を早めるだけでなく、Phi-2ベンチマークのスコアを向上させた。
Microsoft Researchは、一般的な言語モデルとPhi-2をBig Bench Hard(BBH)、常識推論、言語理解、計算、コーディングなどのベンチマークで比較した。ベンチマーク結果によると、Phi-2はさまざまな項目で、70億および130億のパラメーターを持つMistralおよびLlama-2モデルの性能を上回ったという。
モデル | サイズ | BBH | 常識推論 | 言語理解 | 計算 | コーディング |
---|---|---|---|---|---|---|
Llama-2 | 70億 | 40.0 | 62.2 | 56.7 | 16.5 | 21.0 |
130億 | 47.8 | 65.0 | 61.9 | 34.2 | 25.4 | |
700億 | 66.5 | 69.2 | 67.6 | 64.1 | 38.3 | |
Mistral | 70億 | 57.2 | 66.4 | 63.7 | 46.4 | 39.4 |
Phi-2 | 27億 | 59.2 | 68.8 | 62.0 | 61.1 | 53.7 |
一般的なオープンソースのSLMと比較したベンチマークの平均性能 |
Phi-2は、サイズが小さいにもかかわらず、最近発表された「Google Gemini Nano 2」に匹敵するか、上回っていることも特筆すべき点だと、Microsoft Researchは述べている。
モデル | サイズ | BBH | BooIQ | MBPP | MMLU |
---|---|---|---|---|---|
Gemini Nano 2 | 32億 | 42.4 | 79.3 | 27.2 | 55.8 |
Phi-2 | 27億 | 59.3 | 83.3 | 59.1 | 56.7 |
Phi-2とGemini Nano 2モデルのベンチマーク比較(BooIQは質問応答タスク、MBPPはPythonプログラミングタスク、MMLUは複数の言語理解タスク) |
Phi-2は2024年1月6日(米国時間)、MITライセンスに変更され、無償での商用利用も可能となった。
Copyright © ITmedia, Inc. All Rights Reserved.