MicrosoftのAI研究チームであるMicrosoft Research AI Frontiersは、小型モデル向けに最適化したエージェント基盤「MagenticLite」を公開した。「エージェント能力は知識量ではなくツール統合と実行ハーネスで決まる」という仮説に基づき構成されており、小型モデルでも実用的なエージェント性能を引き出すという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Microsoft ResearchのAI Frontiersラボは2026年5月21日(米国時間)、小型モデル向けに最適化した実験的なエージェント基盤「MagenticLite」を公開した。
MagenticLiteは、フォームへの入力や予約の作成、ローカルファイルの整理、情報の検索と分析など、ブラウザとローカルファイルシステムを横断する幅広いタスクを実行できるとしている。
MagenticLiteは、推論、委任、ターミナル操作を担う「MagenticBrain」と、ブラウザ操作を担うコンピュータ操作モデル「Fara1.5」、両モデルを統合する実行ハーネスから構成される。3つの構成要素は単一のシステムとして協調動作するよう設計されており、ユーザーの端末上でデータを保持したままエージェントを動作させることができる。
MagenticLiteの開発は、「エージェント能力はモデルの知識量ではなく、ツール連携と動作に依存する」という仮説に基づいている。この仮説に基づけば、幅広いエージェントタスクを小型モデルで扱える可能性が開け、コストを大幅に削減しつつ実用的なエージェント性能を提供できる。
Microsoftは、フォーム入力、ブラウザリサーチ、ローカルファイル管理などの実利用シナリオから要件を抽出し、評価データセットを構築している。標準ベンチマークでは実世界での有用性を測れないため、シナリオベースの評価をベンチマークと併用し、モデルとハーネスの双方の改善を反復的に進めたという。
MagenticLiteは、Microsoftが先行して公開した実験的なエージェントインタフェース「Magentic-UI」の次世代版に当たる。小型モデル向けに再構築したエージェントハーネスを搭載し、コミュニティーのフィードバックに基づきユーザーインタフェースを刷新した。ブラウザとローカルファイルシステムを単一のワークフローで横断的に操作できる。
ユーザー体験(UX)の面では、Magentic-UIから要素を引き継いでいる。エージェントの推論と行動の可視化、ユーザーが直接介入できる制御機能、重要なポイントでの明示的な承認だ。最新のユーザー調査に基づいて、ブラウザビューとチャットビューを刷新し、エージェントの行動を理解しやすくして必要な場面で介入できるようにした。
Fara1.5はコンピュータ操作モデルファミリーの次世代版で、4B、9B、27Bの3つのサイズで提供される。多くのユースケースで9Bモデルが推奨される。Qwen 3.5をベースにしており、前世代モデルのFara-7Bで残った課題を解消する設計だという。
主要ベンチマーク「Online-Mind2Web」(広く利用されるWebドメイン300タスクで構成)で、Fara1.5は同サイズ帯の小型コンピュータ操作モデルとして新たなSOTA(state-of-the-art:最先端)性能を達成した。Fara-7Bの性能をほぼ倍増させており、最大版のFara1.5-27Bは同ベンチマークで90%を超える性能を記録している。
ユーザー体験の改善点として、フォーム入力、認証情報を要するサイトでのログイン処理、予約確定などの日常タスクで強い性能を発揮する。
Fara1.5はユーザーの長時間タスクのために、クリックやキー操作に加えて、コンテキストに重要な情報を数百ステップにわたって保持する機能や、必要に応じてユーザーに権限や設定を確認する機能を内蔵する。これにより、数分以上の作業を要するタスクでも一貫性を維持できるという。
クリティカルポイント(重要操作ポイント)も再調整した。Fara-7Bでは決済、ログインフロー、取り消し不可能な送信などのクリティカルポイントを検出してフラグを立てるよう訓練されていた。Fara1.5では実利用の知見に基づきクリティカルポイントの設計を改良し、安全のためのトリガーは必要な場面で発動しつつ、フォーム入力のような有用なタスクをブロックしないよう調整している。
MagenticBrainは14B(140億パラメーター)のオーケストレーションモデルで、プランナー、コーダー、委任エージェントの役割を1つに統合している。Qwen 3 14Bからファインチューニングし、MagenticLiteハーネス内でエンドツーエンドに学習させている。
MagenticBrainの設計では、小型モデルでオーケストレーションを担えるようにするための2つの仕様がある。
1つ目は、「ツールを使うべきか」「コードを書くべきか」を判断できるよう学習させた点だ。モデルが適切なツールを選択する多段階ツール呼び出し軌跡と、ツール呼び出しよりPythonコードが効率的な場合などは、コーディングやターミナル操作のプロセスを使い分けるよう組み合わされている。
2つ目は、コンピュータ操作エージェントへの委任だ。オーケストレーターの重要な役割は「自分で実行せず、Fara1.5にタスクを渡すべきか」を判断することにある。データパイプラインに明示的な委任フローを含めた。オーケストレーターがブラウザやユーザーインタフェースタスクを認識し、コンピュータ操作エージェントに引き継ぎ、結果を待って次の処理を再開する一連の流れだ。
ハーネスはオーケストレーターとブラウザ操作モデルを単一のワークフローに統合する。3つの設計選択が特に重要だという。
ハーネスは段階的にプランニングを実施する。これによりシステムの柔軟性を保ち、長時間タスクにおける軌道修正と復旧が迅速化される。
小型モデルは実効的なコンテキストウィンドウが小さく、コンテキストが増えるほど性能が落ちる。ハーネスは各ステップで各モデルに渡す情報を能動的に管理する。プロンプトの焦点を保ち、必要な情報のみを表示し、過去のやりとりを簡潔な要約に圧縮する。
単一の小型モデルに全てのタスクを処理させるのではなく、オーケストレーターがメインエージェントとして動作し、専門的な作業をサブエージェントに委任(ブラウザタスクをFara1.5に引き渡すなど)する。このパターンは、各モデルが問題のより狭く特化した部分を担えるよう、小型言語モデルの強みを生かす。将来的にはサブエージェントを追加し、並列実行することで、より高度で効率的なワークフローを構築する基盤にもなる。
ハーネスはMagentic-UI 1.0のヒューマンインザループ(人間による確認介入)の保証を引き継ぐ。ブラウザ操作とコード実行の両方におけるクリティカルポイントでは、依然としてユーザーの明示的な承認を求める。
システム全体は「Quicksand」上で動作する。QuicksandはQEMUベースのサンドボックス向けに作られたオープンソースのラッパーで、ブラウザセッションとコード実行をホストシステムから隔離する。
MagenticLite、MagenticBrain、Fara1.5は、継続的な探索と開発を支援する研究リリースとして公開されている。MagenticLiteはGitHubで、MagenticBrainおよびFara1.5モデルはMicrosoft Foundryでそれぞれ入手できる。
ローカルLLMは本当に手元で動くのか? ハードウェアとモデルの現実的な選び方【2026年春】
生成AIは幻滅期、AIエージェントは「過度な期待」のピーク ガートナー「未来志向型インフラテクノロジーのハイプ・サイクル」
「VS Code」と「Copilot」でローカルAIモデルを活用 Microsoftがガイドを解説
ホントに役立つスキルを作るには? AnthropicがAIエージェントで使うスキルの構築ガイドを公開Copyright © ITmedia, Inc. All Rights Reserved.
編集部からのお知らせ