「Copilot+ PC(そしてWindows)はAIアプリケーション開発の強力なプラットフォーム」、ナデラCEOがBuildで説明:“AIにおけるWin32”を提供
Microsoftは、Copilot+ PCで進化するWindowsが生成AI戦略における重要な柱であることを、Microsoft Buildで強調した。Windows Copilot Runtimeでローカル生成AIアプリ開発のためのAPI群を順次リリースする。
[2024/05/24 09:00] Windows Copilot LibraryのAPIに関する記述を追加しました
Microsoftは2024年5月21日(米国時間)、年次カンファレンス「Microsoft Build 2024」の基調講演で、前日に発表した「Copilot+ PC」が生成AI(人工知能)アプリケーションの開発者にとって大きな役割を果たすと説明した。
Copilot+ PCは、AIのインフラから開発環境、SaaSまでの各種レイヤーをカバーするプラットフォームである「Copilot Stack」、さまざまな生成AI機能を提供する「Microsoft Copilot」と並び、同社の生成AI戦略の3つの柱なのだという。
Copilot StackやMicrosoft Copilotのような機能は、他の競合パブリッククラウドベンダーも力を入れているが、Microsoftは広く使われている自社のOSを、差別化の武器として打ち出した。生成AIアプリケーションにおけるクラウドとローカルの連携も想定しているようだ。
「Microsoftは、WindowsをAIアプリケーション開発の強力なプラットフォームにしようとしている」(ナデラ氏)
Copilot+ PCはNPU(Neural Proccessing Unit)と生成AIモデルを搭載したWindows PCで、生成AI機能をローカルで高速に実行できる。インターネット接続がなくとも、生成AIアプリケーションが使える。
ナデラ氏はBuildの基調講演で、MicrosoftがCopilot+ PCのために、「Phi Silica」と呼ぶ小規模言語モデル(SLM)を開発したことを明らかにした。NPUの活用による高速性をアピールしている。Phi Silicaは、Copilot+ PCが搭載する40以上の生成AIモデルの一つだが、NPUに最適化され、CPUからAI処理をオフロードできる。また、後述のAPIを提供する。
Copilot+ PCが標準搭載するアプリケーションとしては、「Cocreator」(ラフな下書きや説明から精緻なイラストを生成)、「Live Captions」(ビデオや音声の字幕をリアルタイムで自動生成、多言語に対応)、「Recall」(過去にPCでユーザーが見た画面や情報が自動で“記憶”され、さかのぼって検索できる)が紹介されている。
ナデラ氏は、あるインタビューでRecallのプライバシー懸念について聞かれ、「だからこそローカルでやる意味がある」と答えている。
開発者向けブログによると、Recallは次のような仕組みで動いている。
Copilot+ PC上では、マルチモーダルを含めた複数のSLMが並列的に動き、ユーザーの操作をトレースするために次々生み出されるテキスト、静止画、動画の膨大なデータを整理する。一方、Copilot+ PCではOSの新機能として「Windows Semantec Index」と呼ぶベクトルストアを搭載する。SLMはデータを変換してこのベクトルストアに保存していく。これを自然言語で検索することにより、Recallの機能が実行される。
SLMもベクトルストアも、ローカルのWindowsで統合的に動くため、プライバシー保護は強固だという。
生成AIアプリ開発に使えるAPI群を提供
Microsoftは、上のような生成AIアプリケーションを開発するための基盤として、「Windows Copilot Runtime」を発表した。自社だけでなく、Windowsアプリケーションの開発者たちに広く提供していく。
「Windows Copilot Runtimeは、(以前の)Win32と同様な役割をAIで果たすと考えている」(ナデラ氏)
Windows Copilot Runtimeでは、「Windows Copilot Library」と呼ばれるAPI群を提供する。これにDirectML、ONNX Runtime、PyTorch、Web Neural Network(WebNN)などのAIフレームワーク、Visual Studio CodeなどのためのAIツールチェーンを含め、プラットフォームとして構成している。
Win32への言及はあったが、Windows Copilot LibraryではハイレベルAPIが目立つ。2024年6月時点では、「Windows Studio Effects(映像や音声のスタジオ効果)」、Live Captionsとその翻訳、OCR、Recall、Phi Silica、その後2024年中に、ベクトル埋め込み、RAG(検索拡張生成)、文章要約などのAPIを提供するとしている。
開発者向けブログによると、これらはWindows App SDKで順次リリースされる。
このうちWindows Studio Effectsは、PCのカメラやマイクの特殊効果が使えるAPI。機能としては、背景ぼかし、アイコンタクト、自動フレーミング、ポートレートライト、音声フォーカスなどが挙げられている。これを「ノーコード」でアプリに組み込めるという。
Recallについては、「User Activity API」を通じてアプリ側から利用状態の情報を追加することにより、機能統合ができる。例えば、スケッチングアプリの「Concepts」は、Recallが示した過去の画面から、同じドキュメント、同じ画面表示位置、ズーム利率などの設定で起動できるようになるという。
また、ベクトル埋め込みとRAGのAPIを使うと、セマンテックインデックスを構築して、アプリに自然言語検索の機能を持たせられるようになる。
「これは、Windows Copilot RuntimeのモデルとAPIを使用して、開発者が自分のアプリでも同じ機能を提供できるようになるとてもいい例だ」(ブログポスト)
Copyright © ITmedia, Inc. All Rights Reserved.