Metaは、大規模言語モデル「Meta Llama 3」の8Bおよび70Bパラメーターモデルを発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Metaは2024年4月19日(米国時間)、大規模言語モデル(LLM)「Meta Llama 3」の最初の2モデルを発表した。
これらのモデルは、幅広いユースケースをサポートできる8B(80億)と70B(700億)のパラメーターを持ち、事前トレーニング済みであり、インストラクションファインチューニングされた言語モデルを特徴としている。
Metaは、Llama 3について「広範な業界ベンチマークで最先端の性能を実証するだけでなく、推論の改善を含む新機能を提供する。このクラスのオープンソースモデルとして、現時点で最高の性能を備えている」とうたっている。
Llama 3は間もなく、主要なクラウドやAPIプロバイダーで利用可能になる。その中にはAmazon Web Services(AWS)、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM、Snowflakeなどが含まれる。またLlama 3は、AMD、AWS、Dell Technologies、Intel、NVIDIA、Qualcommが提供するハードウェアプラットフォームからもサポートされる。
Metaは、Llama 3の8Bおよび70Bパラメーターモデルは、これらのスケールにおけるLLMの新たな最先端を確立したとしている。Metaのベンチマークによると、Llama 3はLlama 2と比べてトークンの生成数が最大15%減少した。Llama 3 8BはLlama 2 7Bよりもパラメーターが1B多いが、トークナイザー効率の改善とグループクエリアテンション(GQA)の導入により、Llama 2 7Bと同等の推論効率を維持していることも確認された。
Copyright © ITmedia, Inc. All Rights Reserved.