Meta、画像や動画内のあらゆるオブジェクトを識別できるAIモデルを発表:データセットも同時公開、研究目的で利用可能
Metaは画像や動画内のあらゆる物体を識別できる「Segment Anything Model」(SAM)とデータセットの「Segment Anything 1-Billion mask dataset(SA-1B)」を公開した。
Metaは2023年4月5日(米国時間)、画像や動画内の物体を識別できる「Segment Anything Model」(SAM)とデータセットの「Segment Anything 1-Billion mask dataset(SA-1B)」を公開した。
SAMは、オブジェクトとは何かという一般的な概念を学習しており、写真や動画に含まれるあらゆるオブジェクトのマスクを生成できるという。これには、学習されていないオブジェクトも含まれる。
これにより、幅広いユースケースをカバーする汎用(はんよう)性があり、水中の写真や顕微鏡で見た細胞の写真など新しい写真(ドメイン)に対して、トレーニングを必要とせず、すぐに使用できるとしている。
SAMはセグメンテーションの民主化を目的として公開されており、Apache-2.0ライセンスのもと、SA-1Bは研究目的で利用できる。
SAMは何がすごいのか?
写真のどのピクセルがどのオブジェクトに属するかを識別するセグメンテーションは、コンピュータビジョンのコアをなす要素であり、科学研究における分析や写真の編集まで幅広い用途で活用されている。
だが、特定のタスクに対して正確なセグメンテーションモデルを用意するには、AI(人工知能)学習用のインフラストラクチャと、慎重にアノテーションされたデータにアクセスできる専門家による高度な作業が必要だった。
またあらゆる物体を識別可能なモデルを作成する手法として、人がマスクを反復的に改良させる対話型セグメンテーションと、数千、数万からなるアノテーション済みオブジェクトを用意して学習させる自動セグメンテーションがあった。SAMはこの両方を汎化している。
具体的には、プロンプトを表示するインタフェースを備えており、モデルに適したプロンプトを設計することで、さまざまなセグメンテーション作業を可能にしている。さらに10億枚を超える多用で高品質なデータセットをもとに学習されているため、トレーニングされていない新しいタイプのオブジェクトや画像の識別を可能にしている。
これにより、自らセグメンテーションデータを収集し、ユースケースに応じてモデルを微調整しなくても済むという。
SAMが提供する機能は、以下の通り。
- ユーザーがインタラクティブにポイントをクリックすることでオブジェクトを識別し、オブジェクトに含めるか除外するか選択できる
- セグメンテーションの対象となるオブジェクトがあいまいな場合に、複数のマスクを出力できる
- 写真内の全オブジェクトを自動検出し、マスクできる
- 画像を分類した後、任意のプロンプトをもとにリアルタイムにマスクを生成できる
Metaは、AIシステムのコンポーネントやAR/VR、コンテンツ制作、自然科学の研究分野などさまざまな領域でSAMの活用が期待できるとしている。
Copyright © ITmedia, Inc. All Rights Reserved.