検索
ニュース

OpenAI、AIエージェントのパフォーマンス測定ベンチマーク「MLE-bench」を発表 AIの性能をどう測定?75のKaggleコンペティションのタスクで構成

OpenAIは、機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。

Share
Tweet
LINE
Hatena

 OpenAIは、機械学習エンジニアリングにおけるAI(人工知能)エージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。この論文は2024年10月9日(米国時間)、査読前論文を投稿するサーバ「arXiv」に提出された。

 OpenAIは、「言語モデルやこれを用いたエージェントの機能開発が急速に進んでいるが、自律的なエンドツーエンドの機械学習エンジニアリング(MLE)のパフォーマンスを総合的に測定するベンチマークはほとんどない」との認識から、AIエージェントが難しいMLEタスクをどれだけうまく実行できるかを測定、評価するベンチマークとしてMLE-benchを開発した。

MLE-benchでAIの性能をどう測定するのか

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る