Metaは、同社の大規模言語モデルの最新版「Llama 3.2」を提供開始した。中小規模のビジョンモデル(11Bと90B)と、エッジデバイスやモバイルデバイスに搭載可能な軽量のテキスト専用モデル(1Bと3B)をラインアップしている。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Metaは2024年9月25日(米国時間)、同社の大規模言語モデル(LLM)の最新版「Llama 3.2」を発表した。
7月にリリースした「Llama 3.1」では、80億(8B)、700億(70B)、4050億(405B)パラメーターの3モデルを提供していたのに対し、Llama 3.2では、中小規模のビジョンモデル(11Bと90B)と、エッジデバイスやモバイルデバイスに搭載可能な軽量のテキスト専用モデル(1Bと3B)の計4モデルをラインアップしている。
これらのモデルはllama.comとHugging Faceで公開されており、Metaの幅広いエコシステムを構成するパートナーのプラットフォーム上ですぐに開発に利用できる。これらのパートナーにはAMD、Amazon Web Services、Databricks、Dell Technologies、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflakeなどが含まれる。
マルチモーダルであるLlama 3.2の11Bおよび90Bモデルは、画像推論のユースケースをサポートしており、チャートやグラフなどの文書レベルの理解、画像のキャプション作成、視覚的グラウンディングタスク(自然言語の記述に基づいて画像内のオブジェクトを方向的に正しく特定するなど)に対応している。
Metaによると、このビジョンモデルでは次のようなタスクを実行可能だという。
軽量の1Bおよび3Bモデルは、128Kトークンのコンテキスト長をサポートする。QualcommとMediaTekのハードウェアに対応しており、Armプロセッサに最適化されている。Metaは「エッジでローカルに実行される要約、指示の実行、書き換えといったオンデバイスユースケースにおいて、クラス最先端だ」と述べている。
開発者はこれらのモデルにより、パーソナライズされたエージェント型オンデバイスアプリケーションを構築し、データがデバイス外部に出ることのない強力なプライバシー保護を実現できる。
こうしたアプリケーションにより、受信した直近の10件のメッセージを要約し、行動すべき項目を抽出し、ツール呼び出し機能を使ってフォローアップ会議のカレンダー招待を直接送信するといったことが可能になる。
Metaは、初の公式「Llama Stack」ディストリビューションもリリースした。このディストリビューションにより、開発者はシングルノード、オンプレミス、クラウド、オンデバイスなど、さまざまな環境でLlamaを使用する方法を大幅に簡素化でき、セキュリティを統合したRAG(検索拡張生成)やツール対応アプリケーションの迅速な展開が可能になる。
Metaは、自社で行ったベンチマーク評価も公開し、「Llama 3.2のビジョンモデルは、画像認識やさまざまな視覚理解タスクにおける性能が、主要な基盤モデルである『Claude 3 Haiku』や『GPT4o-mini』に匹敵することを示している」と述べている。
また、軽量モデルの3Bは、指示の実行、要約、プロンプトの書き換え、ツールの使用といったタスクでの性能が「Gemma 2 2.6B」および「Phi 3.5-mini」モデルよりも優れており、1Bの性能も「Gemma」に匹敵するとしている。
Copyright © ITmedia, Inc. All Rights Reserved.