検索
ニュース

Alibaba Cloud、推論能力に焦点を当てたAIモデル「QwQ-32B-Preview」を発表 4つのベンチマークを公開プレビューリリース段階で幾つかの課題も?

Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。

Share
Tweet
LINE
Hatena

 Alibaba CloudのQwenチームは2024年11月28日(中国時間)、推論能力の向上に焦点を当てた実験的AI(人工知能)モデル「QwQ-32B-Preview」以下、QwQ)を発表した。

 Qwenチームはオープンソースを採用し、「Qwen」シリーズの大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)などの構築を進めている。QwQは、「Qwen with Questions」の頭文字を取って命名された。

 QwQは325億パラメーターで、最大コンテキスト長は3万2768トークン。Apache 2.0ライセンスで公開されており、Hugging Faceのデモページで試すこともできる。

OpenAIのo1-previewに匹敵? QwQのパフォーマンス

 Qwenチームは、QwQと5つのLLMを比較した以下のベンチマーク結果をブログ記事で紹介している。

 Qwenチームは各ベンチマーク結果について、以下のように説明している。

GPQA

 GPOA(A Graduate-Level Google-Proof Q&A Benchmark)は、大学院レベルの問題を通じて科学的な問題解決能力を評価するベンチマークだ。QwQは、大学院レベルの科学的推論能力を示した。

AIME

 AIME(The American Invitational Mathematics Examination)は中学数学のトピックに関する数学的問題解決能力を評価するベンチマークだ。QwQは、強力な数学的問題解決スキルを示した。

MATH-500

 MATH-500は包括的なデータセットで数学の問題解決力を評価するベンチマークだ。QwQは、多様なトピックにわたる卓越した数学的理解力を示した。

LiveCodeBench

 LiveCodeBenchは、実世界のプログラミングシナリオにおけるコード生成能力と問題解決能力を評価するベンチマークだ。QwQは、このシナリオにおける強固なプログラミング能力を示した。

 これらの結果は、QwQが分析能力と問題解決能力に優れており、深い推論を必要とする技術的な領域において、それが顕著であることを浮き彫りにしていると、Qwenチームは述べている。

QwQのデモ事例

 Qwenチームはブログ記事で、論理的推論と数学的推論をそれぞれ求める以下の2つの指示に対するQwQの回答を掲載し、QwQが前提を立て、自己対話し、ステップを踏んで推論することを示している。

  • 論理的推論を求める指示:
    • 1+2*3+4*5+6*7+8*9=479にかっこを挿入して、正しい式にしてください
  • 数学的推論を求める指示:
    • 2019^8+1の奇数で最小の素因数を求めよ

QwQの制限

 QwQはプレビューリリース段階にあり、有望な分析能力を示す一方、以下のような重要な制限がある。

  • 言語混合とコード切り替え:突然言語を混合したり、切り替えたりして、応答の明確さに影響が出る可能性がある
  • 再帰的推論ループ:循環的な推論に陥り、結論のない長い回答をする可能性がある
  • 安全性と倫理的配慮:信頼性の高い安全なパフォーマンスを確保するために、強力な安全対策を講じる必要がある
  • パフォーマンスとベンチマークの限界:数学とコーディングに優れているが、他の分野では改善の余地がある(常識的な推論、微妙な文言の理解など)

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る