＠IT
AI IoT
Smart & Social
Microsoft Research、小規模言語モデル（SLM）の「...

Microsoft Research、小規模言語モデル（SLM）の「Phi-2」を発表　MITライセンスで商用利用も可能：最大25倍のモデルに匹敵または上回る性能

Microsoft Researchは、小規模言語モデル（SLM）の「Phi-2」を発表した。27億パラメーターを持つ言語モデルだが、最大25倍の大規模言語モデルに匹敵する性能を持つとしている。

» 2024年01月10日 11時30分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Microsoft Researchの機械学習基盤チームは2023年12月12日（米国時間）、小規模言語モデル（SLM）の「Phi-2」を発表した。

　Microsoft Researchは過去数カ月の間、SLMの研究開発を進めてきた。これまで、Pythonコーディングに特化した13億パラメーターを持つ「Phi-1」や、推論能力と言語理解に焦点を当てた「Phi-1.5」をリリースしてきた。Phi-2は27億パラメーターのSLMであり、さまざまなベンチマークにおいて、最大25倍の大規模言語モデル（LLM）に匹敵する性能を持つという。

Phi-2の特徴

　Microsoft Researchは、数百億のパラメーターを持つ言語モデルと同等の性能を小規模なモデルで達成することを目的に、Phiの研究開発を進めてきた。Phi-2の特徴として次の2つを挙げている。

　1つ目は、学習データの質だ。チームは「教科書品質」のデータに焦点を当てており、トレーニングデータには、科学、日常活動、心に関する理論をはじめ、常識的な推論と一般的な知識をモデルに教えるために特別に作成されたデータセットが含まれている。さらに、教育的価値とコンテンツの質に基づいてフィルタリングし、厳選したWebデータで学習コーパスを補強する。

　2つ目は、13億パラメーターのモデルであるPhi-1.5の知識を27億パラメーターのPhi-2に埋め込んだことだ。このスケールアップされた知識の伝達は、トレーニングの収束を早めるだけでなく、Phi-2ベンチマークのスコアを向上させた。

　Microsoft Researchは、一般的な言語モデルとPhi-2をBig Bench Hard（BBH）、常識推論、言語理解、計算、コーディングなどのベンチマークで比較した。ベンチマーク結果によると、Phi-2はさまざまな項目で、70億および130億のパラメーターを持つMistralおよびLlama-2モデルの性能を上回ったという。


モデル	サイズ	BBH	常識推論	言語理解	計算	コーディング
Llama-2	70億	40.0	62.2	56.7	16.5	21.0
	130億	47.8	65.0	61.9	34.2	25.4
	700億	66.5	69.2	67.6	64.1	38.3
Mistral	70億	57.2	66.4	63.7	46.4	39.4
Phi-2	27億	59.2	68.8	62.0	61.1	53.7
一般的なオープンソースのSLMと比較したベンチマークの平均性能

　Phi-2は、サイズが小さいにもかかわらず、最近発表された「Google Gemini Nano 2」に匹敵するか、上回っていることも特筆すべき点だと、Microsoft Researchは述べている。


モデル	サイズ	BBH	BooIQ	MBPP	MMLU
Gemini Nano 2	32億	42.4	79.3	27.2	55.8
Phi-2	27億	59.3	83.3	59.1	56.7
Phi-2とGemini Nano 2モデルのベンチマーク比較（BooIQは質問応答タスク、MBPPはPythonプログラミングタスク、MMLUは複数の言語理解タスク）