検索
ニュース

クラウド依存、コストの課題を解消? MicrosoftのローカルAI基盤「Foundry Local」ネットワーク遅延もトークン課金もなく、システムへのAI実装が可能に

Microsoftは、開発者がアプリケーションにAI機能を組み込めるローカルAI実行基盤「Foundry Local」の一般提供を開始した。ユーザーの端末上でAI処理を完結させる仕組みにより、クラウドへの依存やネットワーク遅延、トークン課金が発生しないAI実装が可能になるという。

Share
Tweet
LINE
Hatena

 Microsoftは2026年4月9日(米国時間)、クロスプラットフォームのローカルAI実行基盤「Foundry Local」の一般提供を開始したと発表した。

 チャットや音声などのモダリティ(データ種別)に対応し、デスクトップアシスタント、医療意思決定支援ツール、プライベート環境でのコーディング支援、オフライン対応のエッジアプリケーションなどに、本番運用レベルのAIをユーザーの端末上で完全に動かせるという。

Foundry Localの位置付けと役割

 「Microsoft Foundry」は、クラウドからエッジまでを幅広くカバーするプラットフォームだ。クラウド上の最先端モデルやエージェント、ファインチューニング向けのクラウド版から、Azure Localで検証されたオンプレミスや分散環境に対応するFoundry Local、「Windows」「macOS」「Android」など各種端末上でネイティブ動作するFoundry Localまでを含む。

 Microsoft Foundryのローカル実行環境であるFoundry Localは、アプリケーションのインストーラーに直接バンドルしてもダウンロードサイズへの影響が少ない、約20MBの軽量パッケージとして提供される。

 依存関係ゼロで完結したAI搭載アプリケーションを、通常のデスクトップアプリケーションやエッジアプリケーションと同様に配布でき、サイズ肥大化を防ぐことができるという。

 なお、Foundry Localはエンドユーザー端末での軽量なシングルユーザー推論に焦点を当てており、複数ユーザーからの同時リクエストを処理するサーバ推論スタックとしては設計されていない点には留意が必要だ。

Foundry Localの仕組みと対応プラットフォーム

 開発者はアプリケーションコード内に、Python、JavaScript、C#、RustのFoundry Local SDK(ソフトウェア開発キット)をインストールして利用する。SDKをインストールするとFoundry Local Coreと機械学習モデル用オープンフォーマット「ONNX Runtime」のバイナリが自動的にダウンロードされ、アプリケーションのビルド時に依存関係としてバンドルされる。

 SDKはFoundry Local Coreネイティブライブラリの薄いラッパーで、モデルのライフサイクル(ダウンロード、メモリへの読み込み、推論管理、アンロード)を管理する。

 Foundry Localは、Foundryカタログと統合され、初回実行時にデバイスハードウェアに最適化されたモデルをダウンロードする。以降は、モデルはユーザーのデバイス上のローカルキャッシュからロードされる。

Foundry Localのアーキテクチャ アプリケーションに直接組み込むネイティブライブラリ構成(提供:Microsoft)
Foundry Localのアーキテクチャ アプリケーションに直接組み込むネイティブライブラリ構成(提供:Microsoft)

 対応プラットフォームは「Windows」「Linux」「macOS」の3種類。Windowsでは「Windows ML」(Windows Machine Learning)と統合し、OSやWindows Update経由でハードウェアに適合する実行プロバイダープラグインを取得する仕組みで、ユーザーがドライバーをインストールする必要はない。

 macOSではAPI「Metal」経由でApple Silicon GPU上でネイティブ動作する。推論APIはOpenAI互換のリクエスト/レスポンス形式やOpen Responses APIフォーマットに対応しており、ローカルでHTTP Webサーバを立ち上げる複雑なインフラ構築なしに、クラウドと端末上の推論をシームレスに切り替えられる。

Foundry Localの主な機能

 Foundry Localの主な機能は次の通り。

  • ユーザー側の追加セットアップ不要での配布(CLI〈コマンドラインインタフェース〉や外部アプリケーション依存なし)
  • 音声認識、ツール呼び出し、チャットを単一SDKで統合
  • GPU、NPU(Neural network Processing Unit)、CPUの自動切り替えによるハードウェアアクセラレーション
  • トークン単位でのストリーミング応答
  • オフライン動作(ユーザーデータは端末外に出ない)
  • C#、Python、JavaScript、Rustの多言語SDK対応
  • 接続切断時の再開可能なモデルダウンロード
  • 「GPT-OSS」「Qwen」「Whisper」「DeepSeek」「Mistral」「Phi」などの最適化済みモデル提供
  • OpenAI互換HTTPエンドポイント(オプション)

対応モデル拡充とリアルタイム音声認識を予定

 Microsoftは、Azure Localを基盤とするFoundry LocalによるRAG(検索拡張生成)やチャットを含むエージェント型AI機能を、顧客所有の分散インフラ向けにプレビュー提供している。今後は対応モデルの拡充、リアルタイム音声認識(マイクからのライブ字幕生成など)、複数アプリケーション間でのモデル共有を可能にする共有キャッシュの強化を予定している。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る