Metaは、大規模言語モデル「Meta Llama 3」の8Bおよび70Bパラメーターモデルを発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Metaは2024年4月19日(米国時間)、大規模言語モデル(LLM)「Meta Llama 3」の最初の2モデルを発表した。
これらのモデルは、幅広いユースケースをサポートできる8B(80億)と70B(700億)のパラメーターを持ち、事前トレーニング済みであり、インストラクションファインチューニングされた言語モデルを特徴としている。
Metaは、Llama 3について「広範な業界ベンチマークで最先端の性能を実証するだけでなく、推論の改善を含む新機能を提供する。このクラスのオープンソースモデルとして、現時点で最高の性能を備えている」とうたっている。
Llama 3は間もなく、主要なクラウドやAPIプロバイダーで利用可能になる。その中にはAmazon Web Services(AWS)、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflakeなどが含まれる。またLlama 3は、AMD、AWS、Dell Technologies、Intel、NVIDIA、Qualcommが提供するハードウェアプラットフォームからもサポートされる。
Metaは、Llama 3の8Bおよび70Bパラメーターモデルは、これらのスケールにおけるLLMの新たな最先端を確立したとしている。Metaのベンチマークによると、Llama 3はLlama 2と比べてトークンの生成数が最大15%減少した。Llama 3 8BはLlama 2 7Bよりもパラメーターが1B多いが、トークナイザー効率の改善とグループクエリアテンション(GQA)の導入により、Llama 2 7Bと同等の推論効率を維持していることも確認された。
Llama 3は言語のニュアンスや文脈の理解に加え、翻訳や対話生成のような複雑なタスクに優れている。スケーラビリティとパフォーマンスの強化により、マルチステップのタスクを難なくこなす他、事後トレーニング手順の改善により、誤った拒否率が大幅に下がり、応答の精度が改善され、回答の多様性が向上している。さらに、推論、コード生成、命令追従などの機能も飛躍的に向上している。
Llama 3は、Metaが最近発表したカスタム24K GPUクラスタ(2万4576個のNVIDIA Tensor Core H100 GPUを搭載したAIクラスタ)を2つ使用し、15Tトークンを超えるデータでトレーニングされている。このトレーニングデータセットは、Llama 2で使用されたものより7倍大きく、その中には、同4倍の量のコードが含まれている。その結果、Llama 3は過去最高性能のLlamaとなり、Llama 2の2倍に当たる8Kのコンテキスト長をサポートしている。
MetaはLlama 3の開発において、標準的なベンチマークにおけるモデル性能を調べるとともに、現実世界のシナリオにおける性能の最適化を図り、この目的のために、人間がモデルを評価するためのデータセットを作成した。
この評価セットには、12の主要なユースケースをカバーする1800のプロンプトが含まれている。ユースケースの内訳は、「アドバイスを求める」「ブレーンストーミング」「分類」「クローズド質問回答」「コーディング」「創造的な文章作成」「抽出」「キャラクター/ペルソナとしての振る舞い」「自由質問回答」「推論」「文章書き換え」「要約」だ。
Metaは、人間がこの評価セットを用いてClaude Sonnet、Mistral Medium、GPT-3.5、Llama 2に対してLlama 3を評価した結果の集計を次のグラフで紹介し、Llama 3の優位性を強調している。
Metaは、Llama 3を責任ある方法で開発することに注力しており、ユーザーが同様に責任ある方法でLlama 3を使用できるよう、さまざまなリソースを用意している。その一環として、Llama Guard 2、Code Shield、CyberSec Eval 2といった新たなツールを導入した。責任ある使用ガイド(RUG)も更新しているという。
MetaはLlama 3で、現在利用可能な最高のプロプライエタリモデル(クローズドモデル)に匹敵する最高のオープンモデルを構築することを目指している。
「オープンであることがより良い、より安全な製品、より迅速なイノベーション、市場全体の健全化につながる」との認識の下、Metaは、コミュニティーが開発途中のモデルにアクセスできるように、早期かつ頻繁にリリースするオープンソースの理念を採用しているとした。
今後数カ月間に、多言語化とマルチモーダル化、より長いコンテキストウィンドウのサポート、LLMの中核的な機能(推論やコーディングなど)の改善といった特徴を備えた複数のLlama 3モデルをリリースする計画だ。現在トレーニング中の最大のモデルは、パラメーターが400Bを超えるという。
Llama 3のトレーニング完了後、詳細な研究論文を発表するとしている。
Metaは、2023年の「Connect」で初めて発表したAIアシスタント「Meta AI」にLlama 3を統合し、世界十数カ国でMetaのさまざまなアプリ(Facebook、Instagram、WhatsApp、Messengerなど)でMeta AI(英語版)を利用できるようにした(日本ではまだ利用できない)。
Copyright © ITmedia, Inc. All Rights Reserved.