Google、ビジョン言語モデル「PaliGemma 2」を発表 化学式、楽譜、胸部X線など多様なタスクに対応:事前訓練済みモデルをKaggleやHugging Faceで公開
Googleは、同社のビジョン言語モデル「PaliGemma」の最新版となる「PaliGemma 2」を発表した。事前訓練済みのモデルおよびコードをHugging FaceやKaggleで閲覧、ダウンロードできる。
Googleは2024年12月5日(米国時間)、同社のビジョン言語モデル(VLM)「PaliGemma」の最新版となる「PaliGemma 2」を発表した。
PaliGemma 2は、「Gemma 2」をベースに、視覚機能を追加して構築されたモデルだ。画像とテキストの両方を入力として受け取り、テキストを出力する。Googleによると、画像や短編動画のキャプション生成、視覚的質問応答、テキスト読み取り、オブジェクト検出、オブジェクトセグメンテーションなど、幅広い視覚言語タスクにおいてパフォーマンスを発揮するよう設計されているという。
「既存のPaliGemmaユーザーは、主要なコードを書き換えることなくPaliGemma 2にアップグレードできる。特定のタスクやデータセットに対して簡単にファインチューニングが可能で、ニーズに合わせてモデルの性能をカスタマイズできる」と、Googleは述べている。
Googleは、PaliGemma 2の主な特徴、前世代モデルからの変更点を次のように説明している。
PaliGemma 2の主な特徴
スケーラブルなパフォーマンス
PaliGemma 2は、複数のモデルサイズ(3B、10B、28Bパラメーター)と解像度(224px、448px、896px)に対応しており、パフォーマンスを最適化できる。
長文キャプション生成
PaliGemma 2は、単純な物体識別だけでなく、画像に対して詳細でコンテキストに適したキャプションを生成する。アクション、感情、シーン全体のストーリーを説明できる。
新しい分野への拡大
PaliGemma 2は、化学式の認識、楽譜の認識、空間推論、胸部X線レポートの生成で、優れたパフォーマンスを示している。
PaliGemma 2の利用方法
事前訓練済みのモデルおよびコードをHugging FaceやKaggleで閲覧、ダウンロードできる。またGoogleのGitHubリポジトリ(google-gemini/gemma-cookbook)で公開されているノートブックを使用して試すこともできる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- AIコーディングアシスタント「GitHub Copilot」で無料プラン開始 コード補完数などの制限は?
GitHubは、AIコーディングアシスタント「GitHub Copilot」の無料プラン「GitHub Copilot Free」の提供を開始した。 - Google、最新のAIモデルファミリー「Gemini 2.0」を発表 AIコーディングエージェント「Jules」など最新の取り組みを紹介
Googleは、エージェント時代に向けた最新のAIモデルファミリー「Gemini 2.0」を発表し、その最初のモデルの試験運用版リリースや、Gemini 2.0を用いたAIエージェントの研究開発など、関連する一連の取り組みも紹介した。 - オープンマルチモーダルAI「Molmo」リリース 公開された4つのモデルのパフォーマンス、既存モデルとの違いとは?
アレン人工知能研究所は、オープンマルチモーダルAI「Molmo」を発表した。最初のリリースとして、4つのモデルを公開した。