AIエージェントに疑問視? Microsoftが「マルチタスク」の課題を指摘:AIが「人間と同じ勤務スケジュール」で動く?
Microsoftの研究チームは、AIエージェントがマルチタスク環境で陥る4つの主要課題を指摘し、新たなフレームワーク「CORPGEN」を提案した。現実的な勤務スケジュールを持つ「デジタル従業員」としてAIエージェントを展開し、従来手法に比べ最大3.5倍のタスク完了率を実現するという。
Microsoft Researchは2026年2月26日(米国時間)、AIエージェント向けフレームワーク「CORPGEN」を発表した。職場環境で複数の業務タスクを並行して処理できるAIエージェントの実現を目的としている。
Microsoft Researchは、現在のAIエージェントの評価手法(ベンチマーク)が、職場環境の実態から大きく乖離(かいり)していると指摘する。
既存のAIエージェントの弱点? 「マルチタスク」で性能低下
現実の職場環境においては、レポート作成や財務データの管理、スライド準備、未読メールの処理など、複雑に絡み合う業務タスクが同時並行で動いている。一度に単一のタスクしかテストしない既存のベンチマークの場合、こうしたマルチタスク環境においてAIエージェントが実用に耐え得るかどうかを測ることはできないという。
そこで同チームは新たなベンチマーク「Multi-Horizon Task Environments」(MHTE)を開発した。MHTEは、AIエージェントが5時間のセッション内で、それぞれ10〜30の依存ステップを必要とする複数の複雑なタスクを同時に処理する必要がある。
既存AIエージェントの4つの弱点
MHTEを用いた大規模テストにより、主要AIエージェントに共通する4つの課題が明らかになった。
- メモリ容量の制限
- 複数のアクティブなタスクの詳細を同時に保持できない
- タスク間の干渉
- あるタスクからの情報が別のタスクの推論に影響する
- 依存関係の複雑さ
- タスク間の関係が複雑で、上流の作業が完了したかどうかを常に確認する必要がある
- 再優先順位付けの負荷
- 各アクションサイクルで全てのアクティブなタスクを再評価する必要がある
同時実行タスク数が12から46に増加すると、3つの独立したエージェントシステム全てで完了率が16.7%から8.7%に低下した。この結果を踏まえ、Microsoftの研究チームは主要課題を克服するための新たなフレームワーク「CORPGEN」を開発した。
CORPGENのアーキテクチャ
CORPGENは、大規模言語モデル(LLM)を搭載した「デジタル従業員」のようなAIエージェントの在り方を提案している。同フレームワーク上で稼働する個々のエージェントは、永続的なアイデンティティーや役割固有の専門知識、現実的な勤務スケジュールを持つ。
GUI(グラフィカルユーザーインタフェース)の自動化を通じて「Microsoft Office」アプリケーションを操作し、数時間にわたる連続作業でも一貫したパフォーマンスを発揮するという。
CORPGENは4つのメカニズムでマルチタスク処理の課題に対応する。
- 階層的計画
- 目標を日次目標に分解し、さらに瞬間ごとの意思決定に分解する
- サブエージェントの分離
- Web調査などの複雑な操作を独立したコンテキストで実行し、タスク間の汚染を防ぐ
- 階層化メモリシステム
- タスク関連情報のみを選択的に呼び出す
- 適応的要約
- 重要な情報を保持しながら観察データを圧縮し、メモリ増加を制御する
デジタル従業員間の連携
複数のデジタル従業員が同じ環境で動作する場合、あらかじめ連携ワークフローなどをプログラミングしなくても、メールや「Microsoft Teams」といった標準的なツールを通じて自律的な連携が形成される。
あるエージェントがデータを要求するメールを送信し、別のエージェントが次のサイクルでそれを受け取り、自身の記憶から必要な情報を引き出して処理し、返信する。この際、エージェント間で内部状態(ステート)が共有されることはない。
このようなやりとりを繰り返すうちに、システム内に組織構造のようなパターンが自然発生する。リーダーシップの役割を担うエージェント、サポートを提供するエージェントが現れ、共同編集するファイル群(共有ドキュメント)が組織をつなぐ情報ハブの役割を果たす。
評価結果
研究チームは、最大46タスクを1回の6時間セッションにまとめたマルチタスクベンチマークでCORPGENを評価した。
基準となる3つのエージェントシステムは、タスク負荷の増加に伴い性能が低下した。一方、CORPGENは高負荷でも完了率を維持または向上させた。46タスクでは、CORPGENが15.2%のタスクを完了したのに対し、基準手法は4.3%にとどまり、約3.5倍の差が生じた。
コンポーネントを順次追加して検証したところ、経験的学習が最大の改善をもたらしたという。経験的学習では、エージェントが完了したタスクの記録を保存し、構造的に類似した作業で再利用する。この機能により、完了率は8.7%から15.2%に向上した。
エージェントが最終的に作成した「成果物ファイル」を直接検査したところ、人間の判断との一致率は約90%に達した。一方、既存のベンチマークで一般的な「スクリーンショットとアクションログ」に基づく評価では、一致率は約40%にとどまった。
Microsoftの研究チームは、「この大きな乖離は、一般的な評価手法がエージェントの実際の成果を過小評価している可能性を示唆している」と分析している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
AIコーディングはなぜ後から苦しくなるのか? 技術負債に続く「理解負債」「認知負債」という新たな落とし穴
AIコーディングが普及する中で注目され始めた「理解負債」と「認知負債」。従来の技術負債と合わせた「AIコーディング時代の三大負債」を整理し、なぜ開発が後から苦しくなるのかを分かりやすく解説する。
AIコーディングで現場が疲弊するのはツールのせいではない KDDIアジャイル開発センターに聞く、AIコーディングの誤解と「本当の生産性」
AIエージェントの普及により、コードの生成コストは極限まで低下した。しかし現場では、中身を理解せぬままAIにコードを実装させる「バイブコーディング」の課題も顕在化している。開発現場と開発者はAIコーディングとどう向き合うべきなのか。KDDIアジャイル開発センターでAIコーディングを実践する面々との対談を通じて、AIコーディングを使いこなしながら「本当の生産性」をつかむための方策を探る。
ひろゆきの予測「SIerは衰退する」 AIが変えるエンジニア採用
「技育祭2025【秋】」にひろゆき氏が登壇。学生からの「AIに職を奪われるか」「SIerはオワコンか」といった質問に、現役エンジニアの視点で回答した。「コーディングはAIができる」「大企業を目指せ」など、生成AI変革期におけるキャリア形成について語られた、忖度(そんたく)なしのリアルな助言をレポートする。
ChatGPTに「入力してはいけない情報」5選――NGリストとその理由
ESETは、ChatGPTの利用に伴うセキュリティとプライバシーのリスクをまとめた包括的なガイドを公開した。7つの大きなリスクや共有禁止情報の「レッドリスト」、10の保護習慣を解説している。
2026年6月にWindows 11が起動不能に? 「セキュアブート証明書」期限切れリスクと対策
2026年6月、Windows 11搭載PCの一部で起動不能に陥るリスクが浮上している。原因は、PCの安全性を担保する「セキュアブート」のデジタル証明書が15年の有効期限を迎えるためだ。本Tech TIPSでは、この問題の背景から、イベントビューアーでの警告確認、自身のPCが対応済みかどうかを判別するPowerShellのコマンドレット、手動で証明書を更新する手順までを詳しく解説する。
まつもとゆきひろが危惧する、ジュニア不要論の先に広がるIT業界「焼け野原」
AIの進化で若手エンジニアの仕事が消滅しつつある。「ジュニアはいらない」と切り捨てた先に待つのは、技術継承が途絶えた「焼け野原」だ。Rubyの父 まつもとゆきひろさんが語ったのは、プログラミング言語の存続以上に深刻な、人材育成の断絶への危機感だった――。

