ニュース
OpenAI、AIエージェントのパフォーマンス測定ベンチマーク「MLE-bench」を発表 AIの性能をどう測定?:75のKaggleコンペティションのタスクで構成
OpenAIは、機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。
OpenAIは、機械学習エンジニアリングにおけるAI(人工知能)エージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。この論文は2024年10月9日(米国時間)、査読前論文を投稿するサーバ「arXiv」に提出された。
OpenAIは、「言語モデルやこれを用いたエージェントの機能開発が急速に進んでいるが、自律的なエンドツーエンドの機械学習エンジニアリング(MLE)のパフォーマンスを総合的に測定するベンチマークはほとんどない」との認識から、AIエージェントが難しいMLEタスクをどれだけうまく実行できるかを測定、評価するベンチマークとしてMLE-benchを開発した。
MLE-benchでAIの性能をどう測定するのか
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- OpenAI、大規模言語モデル「OpenAI o1-preview」シリーズを発表 他モデルとの違いは?
OpenAIはOpenAI o1-previewとo1-miniをリリースした。本稿では、これまでのモデルとの違いや利用可能なユーザー、利用制限などについて取り上げる。 - OpenAI、AIモデルのマルチモーダル対応やファインチューニング機能強化を発表 無料でどこまで使える?
OpenAIは、同社のAIモデル向けの「Realtime API」(パブリックβ版)、「Chat Completions API」の音声入出力サポート、「ビジョンファインチューニング」機能、「Model Distillation」スイート、「プロンプトキャッシング」を発表した。 - 第281回 OpenAIも参入とうわさの「AIチップ」は何を行うチップなのか? その用途は?
OpenAIが独自のAI(人工知能)チップを開発しているという報道があった。OpenAIが正式に発表したものではないが、かなり確度が高そうだ。AIチップとはどういったものなのか、どういった用途に使うものなのかを簡単に解説しよう。