ニュース

2026年4月7日

AIエージェントに疑問視？　Microsoftが「マルチタスク」の課題を指摘：AIが「人間と同じ勤務スケジュール」で動く？

Microsoftの研究チームは、AIエージェントがマルチタスク環境で陥る4つの主要課題を指摘し、新たなフレームワーク「CORPGEN」を提案した。現実的な勤務スケジュールを持つ「デジタル従業員」としてAIエージェントを展開し、従来手法に比べ最大3.5倍のタスク完了率を実現するという。

[＠IT] PC用表示関連情報

LINE

Hatena

　Microsoft Researchは2026年2月26日（米国時間）、AIエージェント向けフレームワーク「CORPGEN」を発表した。職場環境で複数の業務タスクを並行して処理できるAIエージェントの実現を目的としている。

　Microsoft Researchは、現在のAIエージェントの評価手法（ベンチマーク）が、職場環境の実態から大きく乖離（かいり）していると指摘する。

既存のAIエージェントの弱点？　「マルチタスク」で性能低下

　現実の職場環境においては、レポート作成や財務データの管理、スライド準備、未読メールの処理など、複雑に絡み合う業務タスクが同時並行で動いている。一度に単一のタスクしかテストしない既存のベンチマークの場合、こうしたマルチタスク環境においてAIエージェントが実用に耐え得るかどうかを測ることはできないという。

　そこで同チームは新たなベンチマーク「Multi-Horizon Task Environments」（MHTE）を開発した。MHTEは、AIエージェントが5時間のセッション内で、それぞれ10～30の依存ステップを必要とする複数の複雑なタスクを同時に処理する必要がある。

既存AIエージェントの4つの弱点

　MHTEを用いた大規模テストにより、主要AIエージェントに共通する4つの課題が明らかになった。

メモリ容量の制限
- 複数のアクティブなタスクの詳細を同時に保持できない
タスク間の干渉
- あるタスクからの情報が別のタスクの推論に影響する
依存関係の複雑さ
- タスク間の関係が複雑で、上流の作業が完了したかどうかを常に確認する必要がある
再優先順位付けの負荷
- 各アクションサイクルで全てのアクティブなタスクを再評価する必要がある

　同時実行タスク数が12から46に増加すると、3つの独立したエージェントシステム全てで完了率が16.7％から8.7％に低下した。この結果を踏まえ、Microsoftの研究チームは主要課題を克服するための新たなフレームワーク「CORPGEN」を開発した。

CORPGENのアーキテクチャ

　CORPGENは、大規模言語モデル（LLM）を搭載した「デジタル従業員」のようなAIエージェントの在り方を提案している。同フレームワーク上で稼働する個々のエージェントは、永続的なアイデンティティーや役割固有の専門知識、現実的な勤務スケジュールを持つ。

　GUI（グラフィカルユーザーインタフェース）の自動化を通じて「Microsoft Office」アプリケーションを操作し、数時間にわたる連続作業でも一貫したパフォーマンスを発揮するという。

デジタル従業員（エージェント）の1日のワークフローのイメージ（提供：Microsoft Research）

　CORPGENは4つのメカニズムでマルチタスク処理の課題に対応する。

階層的計画
- 目標を日次目標に分解し、さらに瞬間ごとの意思決定に分解する
サブエージェントの分離
- Web調査などの複雑な操作を独立したコンテキストで実行し、タスク間の汚染を防ぐ
階層化メモリシステム
- タスク関連情報のみを選択的に呼び出す
適応的要約
- 重要な情報を保持しながら観察データを圧縮し、メモリ増加を制御する

4つの主要メカニズムを備えたCORPGENのアーキテクチャ図（提供：Microsoft Research）

デジタル従業員間の連携

　複数のデジタル従業員が同じ環境で動作する場合、あらかじめ連携ワークフローなどをプログラミングしなくても、メールや「Microsoft Teams」といった標準的なツールを通じて自律的な連携が形成される。

　あるエージェントがデータを要求するメールを送信し、別のエージェントが次のサイクルでそれを受け取り、自身の記憶から必要な情報を引き出して処理し、返信する。この際、エージェント間で内部状態（ステート）が共有されることはない。

　このようなやりとりを繰り返すうちに、システム内に組織構造のようなパターンが自然発生する。リーダーシップの役割を担うエージェント、サポートを提供するエージェントが現れ、共同編集するファイル群（共有ドキュメント）が組織をつなぐ情報ハブの役割を果たす。

評価結果

　研究チームは、最大46タスクを1回の6時間セッションにまとめたマルチタスクベンチマークでCORPGENを評価した。

　基準となる3つのエージェントシステムは、タスク負荷の増加に伴い性能が低下した。一方、CORPGENは高負荷でも完了率を維持または向上させた。46タスクでは、CORPGENが15.2％のタスクを完了したのに対し、基準手法は4.3％にとどまり、約3.5倍の差が生じた。

　コンポーネントを順次追加して検証したところ、経験的学習が最大の改善をもたらしたという。経験的学習では、エージェントが完了したタスクの記録を保存し、構造的に類似した作業で再利用する。この機能により、完了率は8.7％から15.2％に向上した。

　エージェントが最終的に作成した「成果物ファイル」を直接検査したところ、人間の判断との一致率は約90％に達した。一方、既存のベンチマークで一般的な「スクリーンショットとアクションログ」に基づく評価では、一致率は約40％にとどまった。

　Microsoftの研究チームは、「この大きな乖離は、一般的な評価手法がエージェントの実際の成果を過小評価している可能性を示唆している」と分析している。

AIエージェントに疑問視？　Microsoftが「マルチタスク」の課題を指摘：AIが「人間と同じ勤務スケジュール」で動く？

既存のAIエージェントの弱点？　「マルチタスク」で性能低下

既存AIエージェントの4つの弱点

CORPGENのアーキテクチャ

デジタル従業員間の連携

評価結果

関連記事

関連リンク

Smart & Social 記事ランキング

AIエージェントに疑問視？ Microsoftが「マルチタスク」の課題を指摘：AIが「人間と同じ勤務スケジュール」で動く？

既存のAIエージェントの弱点？ 「マルチタスク」で性能低下

既存AIエージェントの4つの弱点

CORPGENのアーキテクチャ

デジタル従業員間の連携

評価結果

関連記事

関連リンク

Smart & Social 記事ランキング

AIエージェントに疑問視？　Microsoftが「マルチタスク」の課題を指摘：AIが「人間と同じ勤務スケジュール」で動く？

既存のAIエージェントの弱点？　「マルチタスク」で性能低下