Alibaba Cloud、推論能力に焦点を当てたAIモデル「QwQ-32B-Preview」を発表 4つのベンチマークを公開:プレビューリリース段階で幾つかの課題も?
Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。
Alibaba CloudのQwenチームは2024年11月28日(中国時間)、推論能力の向上に焦点を当てた実験的AI(人工知能)モデル「QwQ-32B-Preview」以下、QwQ)を発表した。
Qwenチームはオープンソースを採用し、「Qwen」シリーズの大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)などの構築を進めている。QwQは、「Qwen with Questions」の頭文字を取って命名された。
QwQは325億パラメーターで、最大コンテキスト長は3万2768トークン。Apache 2.0ライセンスで公開されており、Hugging Faceのデモページで試すこともできる。
OpenAIのo1-previewに匹敵? QwQのパフォーマンス
Qwenチームは、QwQと5つのLLMを比較した以下のベンチマーク結果をブログ記事で紹介している。
Qwenチームは各ベンチマーク結果について、以下のように説明している。
GPQA
GPOA(A Graduate-Level Google-Proof Q&A Benchmark)は、大学院レベルの問題を通じて科学的な問題解決能力を評価するベンチマークだ。QwQは、大学院レベルの科学的推論能力を示した。
AIME
AIME(The American Invitational Mathematics Examination)は中学数学のトピックに関する数学的問題解決能力を評価するベンチマークだ。QwQは、強力な数学的問題解決スキルを示した。
MATH-500
MATH-500は包括的なデータセットで数学の問題解決力を評価するベンチマークだ。QwQは、多様なトピックにわたる卓越した数学的理解力を示した。
LiveCodeBench
LiveCodeBenchは、実世界のプログラミングシナリオにおけるコード生成能力と問題解決能力を評価するベンチマークだ。QwQは、このシナリオにおける強固なプログラミング能力を示した。
これらの結果は、QwQが分析能力と問題解決能力に優れており、深い推論を必要とする技術的な領域において、それが顕著であることを浮き彫りにしていると、Qwenチームは述べている。
QwQのデモ事例
Qwenチームはブログ記事で、論理的推論と数学的推論をそれぞれ求める以下の2つの指示に対するQwQの回答を掲載し、QwQが前提を立て、自己対話し、ステップを踏んで推論することを示している。
- 論理的推論を求める指示:
- 1+2*3+4*5+6*7+8*9=479にかっこを挿入して、正しい式にしてください
- 数学的推論を求める指示:
- 2019^8+1の奇数で最小の素因数を求めよ
QwQの制限
QwQはプレビューリリース段階にあり、有望な分析能力を示す一方、以下のような重要な制限がある。
- 言語混合とコード切り替え:突然言語を混合したり、切り替えたりして、応答の明確さに影響が出る可能性がある
- 再帰的推論ループ:循環的な推論に陥り、結論のない長い回答をする可能性がある
- 安全性と倫理的配慮:信頼性の高い安全なパフォーマンスを確保するために、強力な安全対策を講じる必要がある
- パフォーマンスとベンチマークの限界:数学とコーディングに優れているが、他の分野では改善の余地がある(常識的な推論、微妙な文言の理解など)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 大規模言語モデル(LLM)の評価と比較のポイント
「ChatGPT」の急速な浸透に伴い大規模言語モデル(LLM)が急増し、それらを評価することが課題となっている。本稿ではLLMを評価、比較するための重要な要素と、LLMが自社にもたらす効果と推奨事項を紹介する。 - 生成AIをどの業務に適用する? LLMやRAG、社内データはどう扱う? すぐに使える企業での実践ポイントを紹介
今や、生成AIの活用を検討することは企業にとって必須事項となっている。ただ、「自社のどの部分に適用できるのか」という検証段階でつまずき、導入が進まないという企業もあるだろう。本稿では「Cloud Operator Days Tokyo 2024」のセミナーから生成AIを業務改善に役立てた2つの事例を紹介する。他社の事例を見ることで自社への導入に役立ててほしい。 - 写真やイラストのキャラクターを自然な3D動画に合成できる「MIMO」はどこがすごいのか?
Alibaba Groupのインテリジェントコンピューティング研究所は、キャラクタービデオ合成モデル「MIMO」を発表した。本物のようなシーンの中で、キャラクターのアニメーションが可能になる。