Microsoftの研究チームは、AIエージェントがマルチタスク環境で陥る4つの主要課題を指摘し、新たなフレームワーク「CORPGEN」を提案した。現実的な勤務スケジュールを持つ「デジタル従業員」としてAIエージェントを展開し、従来手法に比べ最大3.5倍のタスク完了率を実現するという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Microsoft Researchは2026年2月26日(米国時間)、AIエージェント向けフレームワーク「CORPGEN」を発表した。職場環境で複数の業務タスクを並行して処理できるAIエージェントの実現を目的としている。
Microsoft Researchは、現在のAIエージェントの評価手法(ベンチマーク)が、職場環境の実態から大きく乖離(かいり)していると指摘する。
現実の職場環境においては、レポート作成や財務データの管理、スライド準備、未読メールの処理など、複雑に絡み合う業務タスクが同時並行で動いている。一度に単一のタスクしかテストしない既存のベンチマークの場合、こうしたマルチタスク環境においてAIエージェントが実用に耐え得るかどうかを測ることはできないという。
そこで同チームは新たなベンチマーク「Multi-Horizon Task Environments」(MHTE)を開発した。MHTEは、AIエージェントが5時間のセッション内で、それぞれ10〜30の依存ステップを必要とする複数の複雑なタスクを同時に処理する必要がある。
MHTEを用いた大規模テストにより、主要AIエージェントに共通する4つの課題が明らかになった。
同時実行タスク数が12から46に増加すると、3つの独立したエージェントシステム全てで完了率が16.7%から8.7%に低下した。この結果を踏まえ、Microsoftの研究チームは主要課題を克服するための新たなフレームワーク「CORPGEN」を開発した。
CORPGENは、大規模言語モデル(LLM)を搭載した「デジタル従業員」のようなAIエージェントの在り方を提案している。同フレームワーク上で稼働する個々のエージェントは、永続的なアイデンティティーや役割固有の専門知識、現実的な勤務スケジュールを持つ。
GUI(グラフィカルユーザーインタフェース)の自動化を通じて「Microsoft Office」アプリケーションを操作し、数時間にわたる連続作業でも一貫したパフォーマンスを発揮するという。
CORPGENは4つのメカニズムでマルチタスク処理の課題に対応する。
複数のデジタル従業員が同じ環境で動作する場合、あらかじめ連携ワークフローなどをプログラミングしなくても、メールや「Microsoft Teams」といった標準的なツールを通じて自律的な連携が形成される。
あるエージェントがデータを要求するメールを送信し、別のエージェントが次のサイクルでそれを受け取り、自身の記憶から必要な情報を引き出して処理し、返信する。この際、エージェント間で内部状態(ステート)が共有されることはない。
このようなやりとりを繰り返すうちに、システム内に組織構造のようなパターンが自然発生する。リーダーシップの役割を担うエージェント、サポートを提供するエージェントが現れ、共同編集するファイル群(共有ドキュメント)が組織をつなぐ情報ハブの役割を果たす。
研究チームは、最大46タスクを1回の6時間セッションにまとめたマルチタスクベンチマークでCORPGENを評価した。
基準となる3つのエージェントシステムは、タスク負荷の増加に伴い性能が低下した。一方、CORPGENは高負荷でも完了率を維持または向上させた。46タスクでは、CORPGENが15.2%のタスクを完了したのに対し、基準手法は4.3%にとどまり、約3.5倍の差が生じた。
コンポーネントを順次追加して検証したところ、経験的学習が最大の改善をもたらしたという。経験的学習では、エージェントが完了したタスクの記録を保存し、構造的に類似した作業で再利用する。この機能により、完了率は8.7%から15.2%に向上した。
エージェントが最終的に作成した「成果物ファイル」を直接検査したところ、人間の判断との一致率は約90%に達した。一方、既存のベンチマークで一般的な「スクリーンショットとアクションログ」に基づく評価では、一致率は約40%にとどまった。
Microsoftの研究チームは、「この大きな乖離は、一般的な評価手法がエージェントの実際の成果を過小評価している可能性を示唆している」と分析している。
AIコーディングはなぜ後から苦しくなるのか? 技術負債に続く「理解負債」「認知負債」という新たな落とし穴
AIコーディングで現場が疲弊するのはツールのせいではない KDDIアジャイル開発センターに聞く、AIコーディングの誤解と「本当の生産性」
ひろゆきの予測「SIerは衰退する」 AIが変えるエンジニア採用
ChatGPTに「入力してはいけない情報」5選――NGリストとその理由
2026年6月にWindows 11が起動不能に? 「セキュアブート証明書」期限切れリスクと対策
まつもとゆきひろが危惧する、ジュニア不要論の先に広がるIT業界「焼け野原」Copyright © ITmedia, Inc. All Rights Reserved.