クラウド依存、コストの課題を解消? MicrosoftのローカルAI基盤「Foundry Local」:ネットワーク遅延もトークン課金もなく、システムへのAI実装が可能に
Microsoftは、開発者がアプリケーションにAI機能を組み込めるローカルAI実行基盤「Foundry Local」の一般提供を開始した。ユーザーの端末上でAI処理を完結させる仕組みにより、クラウドへの依存やネットワーク遅延、トークン課金が発生しないAI実装が可能になるという。
Microsoftは2026年4月9日(米国時間)、クロスプラットフォームのローカルAI実行基盤「Foundry Local」の一般提供を開始したと発表した。
チャットや音声などのモダリティ(データ種別)に対応し、デスクトップアシスタント、医療意思決定支援ツール、プライベート環境でのコーディング支援、オフライン対応のエッジアプリケーションなどに、本番運用レベルのAIをユーザーの端末上で完全に動かせるという。
Foundry Localの位置付けと役割
「Microsoft Foundry」は、クラウドからエッジまでを幅広くカバーするプラットフォームだ。クラウド上の最先端モデルやエージェント、ファインチューニング向けのクラウド版から、Azure Localで検証されたオンプレミスや分散環境に対応するFoundry Local、「Windows」「macOS」「Android」など各種端末上でネイティブ動作するFoundry Localまでを含む。
Microsoft Foundryのローカル実行環境であるFoundry Localは、アプリケーションのインストーラーに直接バンドルしてもダウンロードサイズへの影響が少ない、約20MBの軽量パッケージとして提供される。
依存関係ゼロで完結したAI搭載アプリケーションを、通常のデスクトップアプリケーションやエッジアプリケーションと同様に配布でき、サイズ肥大化を防ぐことができるという。
なお、Foundry Localはエンドユーザー端末での軽量なシングルユーザー推論に焦点を当てており、複数ユーザーからの同時リクエストを処理するサーバ推論スタックとしては設計されていない点には留意が必要だ。
Foundry Localの仕組みと対応プラットフォーム
開発者はアプリケーションコード内に、Python、JavaScript、C#、RustのFoundry Local SDK(ソフトウェア開発キット)をインストールして利用する。SDKをインストールするとFoundry Local Coreと機械学習モデル用オープンフォーマット「ONNX Runtime」のバイナリが自動的にダウンロードされ、アプリケーションのビルド時に依存関係としてバンドルされる。
SDKはFoundry Local Coreネイティブライブラリの薄いラッパーで、モデルのライフサイクル(ダウンロード、メモリへの読み込み、推論管理、アンロード)を管理する。
Foundry Localは、Foundryカタログと統合され、初回実行時にデバイスハードウェアに最適化されたモデルをダウンロードする。以降は、モデルはユーザーのデバイス上のローカルキャッシュからロードされる。
対応プラットフォームは「Windows」「Linux」「macOS」の3種類。Windowsでは「Windows ML」(Windows Machine Learning)と統合し、OSやWindows Update経由でハードウェアに適合する実行プロバイダープラグインを取得する仕組みで、ユーザーがドライバーをインストールする必要はない。
macOSではAPI「Metal」経由でApple Silicon GPU上でネイティブ動作する。推論APIはOpenAI互換のリクエスト/レスポンス形式やOpen Responses APIフォーマットに対応しており、ローカルでHTTP Webサーバを立ち上げる複雑なインフラ構築なしに、クラウドと端末上の推論をシームレスに切り替えられる。
Foundry Localの主な機能
Foundry Localの主な機能は次の通り。
- ユーザー側の追加セットアップ不要での配布(CLI〈コマンドラインインタフェース〉や外部アプリケーション依存なし)
- 音声認識、ツール呼び出し、チャットを単一SDKで統合
- GPU、NPU(Neural network Processing Unit)、CPUの自動切り替えによるハードウェアアクセラレーション
- トークン単位でのストリーミング応答
- オフライン動作(ユーザーデータは端末外に出ない)
- C#、Python、JavaScript、Rustの多言語SDK対応
- 接続切断時の再開可能なモデルダウンロード
- 「GPT-OSS」「Qwen」「Whisper」「DeepSeek」「Mistral」「Phi」などの最適化済みモデル提供
- OpenAI互換HTTPエンドポイント(オプション)
対応モデル拡充とリアルタイム音声認識を予定
Microsoftは、Azure Localを基盤とするFoundry LocalによるRAG(検索拡張生成)やチャットを含むエージェント型AI機能を、顧客所有の分散インフラ向けにプレビュー提供している。今後は対応モデルの拡充、リアルタイム音声認識(マイクからのライブ字幕生成など)、複数アプリケーション間でのモデル共有を可能にする共有キャッシュの強化を予定している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
「Visual Studio Code」と「Ollama」で簡単に始められる、安心・安全なローカルAI活用術
気軽に試せるラップトップ環境で、チャットbotを提供するオールインワンの生成AI環境構築から始め、Kubernetesを活用した本格的なGPUクラスタの構築やモデルのファインチューニングまで解説する本連載。今回は、「Visual Studio Code」と「Ollama」を活用し、Visual Studio Codeでローカルモデルに対してコードの生成や修正、レビューを指示したり、AIエージェントモードでコーディングさせたりする方法を解説します。
WindowsはローカルAIやエージェント機能の強化でどんなOSに変わるのか 「Ignite 2025」発表まとめ
Microsoftは2025年11月に開催した年次イベント「Microsoft Ignite 2025」で、生成AIやAIエージェントの普及を見据えたWindowsの新たな進化構想を発表した。企業が簡単かつ安全にAIを活用できる基盤として、Windowsを「AIのキャンバス」と位置付けている。
AIエージェントに疑問視? Microsoftが「マルチタスク」の課題を指摘
Microsoftの研究チームは、AIエージェントがマルチタスク環境で陥る4つの主要課題を指摘し、新たなフレームワーク「CORPGEN」を提案した。現実的な勤務スケジュールを持つ「デジタル従業員」としてAIエージェントを展開し、従来手法に比べ最大3.5倍のタスク完了率を実現するという。
トークン破産、情報漏えい、LLM実行遅延――全部「AI Gateway」に任せよう 無料枠で学ぶAIエージェント開発、運用の新常識
気軽に試せるラップトップ環境で、チャットbotを提供するオールインワンの生成AI環境構築から始め、Kubernetesを活用した本格的なGPUクラスタの構築やモデルのファインチューニングまで解説する本連載。今回は、LLMアプリケーション開発や運用で避けて通れない課題を、AI Gatewayで解決するアプローチを解説します。
あらゆるアプリにAIエージェント機能を組み込める「GitHub Copilot SDK」発表
GitHubは「GitHub Copilot SDK」のテクニカルプレビュー版を発表した。計画立案やツール呼び出し、ファイル編集、コマンド実行などが可能なエージェント機能を、あらゆるアプリケーションに組み込むことが可能になるという。
