OpenAIは、機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
OpenAIは、機械学習エンジニアリングにおけるAI(人工知能)エージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。この論文は2024年10月9日(米国時間)、査読前論文を投稿するサーバ「arXiv」に提出された。
OpenAIは、「言語モデルやこれを用いたエージェントの機能開発が急速に進んでいるが、自律的なエンドツーエンドの機械学習エンジニアリング(MLE)のパフォーマンスを総合的に測定するベンチマークはほとんどない」との認識から、AIエージェントが難しいMLEタスクをどれだけうまく実行できるかを測定、評価するベンチマークとしてMLE-benchを開発した。
Copyright © ITmedia, Inc. All Rights Reserved.