Cohereの研究部門が高性能多言語モデル「Aya Expanse」を発表　日本語含む23言語で利用可能：ベンチマークで他の主要オープンウェイトモデルをどれぐらい上回ったのか？

Cohereの研究部門は高性能な多言語モデルファミリー「Aya Expanse」を発表した。23の言語にわたって優れた性能を発揮し、ベンチマークで他の主要なオープンウェイト（重み）モデルを上回っている。

» 2024年10月29日 08時00分公開

[＠IT]

印刷

鬯ｮ�ｫ驕ｨ繧托ｽｽ�ｹ隴趣ｽ｢�ｽ�ｽ�ｽ�ｽPost

Shareシェア

はてなブックマーク

SharePocket Button

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　AI（人工知能）スタートアップ（新興企業）のCohereの研究部門であるCohere For AIは2024年10月24日（カナダ時間）、高性能な多言語モデルファミリー「Aya Expanse」を発表した。

　Aya Expanseは23の言語にわたって性能を発揮し、ベンチマークで他の主要なオープンウェイト（重み）モデルを上回っている。

　Aya Expanseは、Cohere For AIが主導して進めているグローバルな取り組みである「Aya」の最新の成果だ。Ayaは、AIがカバーする言語を増やす新しいモデルとデータセットを作成するオープンサイエンスプロジェクト。119カ国の3000人以上の独立研究者が参加している。多言語AIの最先端技術を発展させ、世界中の人々や文化間のギャップを埋めることを目的としている。

　Cohere For AIは、多言語研究への継続的なコミットメントの一環として、また多言語AIのフロンティアを前進させるために、Aya ExpanseをKaggleとHugging Faceでオープンウェイトモデルとして公開している。Kaggleは、データ分析や機械学習のコンペティションプラットフォーム。Hugging Faceは、AIモデルの開発、トレーニング、デプロイ（展開）に広く使われているオープンソースプラットフォームだ。

ベンチマークで他の主要オープンウェイトモデルをどれぐらい上回ったのか？

　Aya Expanseは、80億パラメーターモデル「Aya Expanse 8B」と320億パラメーターモデル「Aya Expanse 32B」がある。Aya Expanse 8Bは、世界中の研究者にとってAyaの画期的な技術を利用しやすくするものであり、Aya Expanse 32Bは、最先端の多言語機能を提供する。

Aya Expanse 8Bの他モデルに対する勝率（m-ArenaHard）（提供：Cohere For AI）

8言語に関するAya Expanse 8BのGemma 2 9Bに対する勝率（m-ArenaHard）（提供：Cohere For AI）

　Aya Expanse 32Bは、ベンチマークでGemma 2 27B、Mistral 8x22B、Llama 3.1 70B（Aya Expanse 32Bの2倍以上の規模）を上回っている。

　Aya Expanse 8Bは、Gemma 2 9B、Llama 3.1 8Bおよび最近リリースされたMinistral 8Bといった同パラメータークラスの主要なオープンウェイトモデルに対する勝率が60.4～70.6％に達している。

Aya Expanseに結実したブレークスルー

　Aya Expanseの開発では、Ayaプロジェクトで研究課題を克服するために導入された以下のトレーニング手法のブレークスルーが大きく貢献した。

データ裁定

　多言語機能に適した合成データ（※）を生成するために、データ分布に基づいて戦略的にさまざまな“教師”モデルを選択する新しいデータサンプリング手法を指す。

（※）エキスパートモデルや“教師”モデルが他のモデルをトレーニングするために生成するデータ

グローバルな嗜好への対応

　モデルトレーニングの後期段階に行われる嗜好（しこう）トレーニングは、欧米中心のデータセットに過剰に適合することが多いため、さまざまな文化的、言語的観点を考慮し、嗜好トレーニングを大規模な言語環境に拡張し、最適化を図った。これによって一般的な性能と安全性の両方が大きく向上した。

モデルのマージ

　各段階で複数の候補モデルの重みを組み合わせ、より高い汎用（はんよう）性と性能の実現を目指すモデルマージに関する研究成果を導入した。

手法の統合

　これの手法を全て組み合わせ、Aya Expanseのための1つのトレーニングレシピを作成した。これらの手法それぞれが段階的な改善を可能にし、Aya Expanseがベンチマークで同パラメータークラスの他の主要モデルを大きく上回る結果につながった。

Gemma 2 9Bに対するAya Expanse 8Bの勝率の段階的改善（提供：Cohere For AI）

　このトレーニングレシピは大規模モデルでも効果を発揮し、23の言語におけるAya Expanse 32BのGemma 2 27B、Mistral 8x22B、Llama 3.1 70Bに対する勝率は、51.8～76.6％となっている。

　なお、Aya Expanseは以下の23言語に対応している。アラビア語、中国語（簡体字、繁体字）、チェコ語、オランダ語、英語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、ペルシア語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、スペイン語、トルコ語、ウクライナ語、ベトナム語。