Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Alibaba CloudのQwenチームは2024年11月28日(中国時間)、推論能力の向上に焦点を当てた実験的AI(人工知能)モデル「QwQ-32B-Preview」以下、QwQ)を発表した。
Qwenチームはオープンソースを採用し、「Qwen」シリーズの大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)などの構築を進めている。QwQは、「Qwen with Questions」の頭文字を取って命名された。
QwQは325億パラメーターで、最大コンテキスト長は3万2768トークン。Apache 2.0ライセンスで公開されており、Hugging Faceのデモページで試すこともできる。
Qwenチームは、QwQと5つのLLMを比較した以下のベンチマーク結果をブログ記事で紹介している。
Qwenチームは各ベンチマーク結果について、以下のように説明している。
GPOA(A Graduate-Level Google-Proof Q&A Benchmark)は、大学院レベルの問題を通じて科学的な問題解決能力を評価するベンチマークだ。QwQは、大学院レベルの科学的推論能力を示した。
AIME(The American Invitational Mathematics Examination)は中学数学のトピックに関する数学的問題解決能力を評価するベンチマークだ。QwQは、強力な数学的問題解決スキルを示した。
MATH-500は包括的なデータセットで数学の問題解決力を評価するベンチマークだ。QwQは、多様なトピックにわたる卓越した数学的理解力を示した。
LiveCodeBenchは、実世界のプログラミングシナリオにおけるコード生成能力と問題解決能力を評価するベンチマークだ。QwQは、このシナリオにおける強固なプログラミング能力を示した。
これらの結果は、QwQが分析能力と問題解決能力に優れており、深い推論を必要とする技術的な領域において、それが顕著であることを浮き彫りにしていると、Qwenチームは述べている。
Qwenチームはブログ記事で、論理的推論と数学的推論をそれぞれ求める以下の2つの指示に対するQwQの回答を掲載し、QwQが前提を立て、自己対話し、ステップを踏んで推論することを示している。
QwQはプレビューリリース段階にあり、有望な分析能力を示す一方、以下のような重要な制限がある。
Copyright © ITmedia, Inc. All Rights Reserved.