OpenAI、AIエージェントのパフォーマンス測定ベンチマーク「MLE-bench」を発表 AIの性能をどう測定?75のKaggleコンペティションのタスクで構成

OpenAIは、機械学習エンジニアリングにおけるAIエージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。

» 2024年10月17日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 OpenAIは、機械学習エンジニアリングにおけるAI(人工知能)エージェントのパフォーマンスを測定するベンチマーク「MLE-bench」を論文で発表した。この論文は2024年10月9日(米国時間)、査読前論文を投稿するサーバ「arXiv」に提出された。

 OpenAIは、「言語モデルやこれを用いたエージェントの機能開発が急速に進んでいるが、自律的なエンドツーエンドの機械学習エンジニアリング(MLE)のパフォーマンスを総合的に測定するベンチマークはほとんどない」との認識から、AIエージェントが難しいMLEタスクをどれだけうまく実行できるかを測定、評価するベンチマークとしてMLE-benchを開発した。

MLE-benchでAIの性能をどう測定するのか

Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

AI for エンジニアリング
「サプライチェーン攻撃」対策
1P情シスのための脆弱性管理/対策の現実解
OSSのサプライチェーン管理、取るべきアクションとは
Microsoft & Windows最前線2024
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。