ニュース
UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」 Googleが開発:質問応答、UIナビゲーション、画面要約などのタスクに対応
Googleは、UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。
Googleは2024年3月19日(米国時間)、ユーザーインタフェース(UI)とインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。
画面UIとインフォグラフィックスは、類似した視覚言語とデザイン原理を共有しており、人間のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしている。だが、複雑さや多様な表現形式から、モデリングにおいてユニークな課題が存在していた。
そこでGoogleは、ScreenAIの研究開発に乗り出した。ScreenAIは、「PaLI」(Pathways Language and Image)アーキテクチャを「pix2struct」の柔軟なパッチ戦略で改良したものだ。データセットとタスクのユニークな組み合わせでトレーニングされている。
PaLIは、視覚入力とテキスト入力に基づいてテキストを生成し、このインタフェースを用いて、多くの言語でさまざまな視覚、言語、マルチモーダルタスクを実行する多言語言語画像モデルだ。pix2structは、純粋に視覚的な言語の理解を目的とした事前トレーニング済み画像テキスト変換モデルで、言語入力と視覚入力を柔軟に統合するという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- オンデバイスでLLMを実行できる「MediaPipe LLM Inference API」、Googleがリリース
Googleは「MediaPipe」を通じてオンデバイスでLLMを実行できるLLMを実行できる「MediaPipe LLM Inference API」の実験的リリースを発表した。MediaPipe LLM Inference APIでは、LLMを使ったアプリケーションをスマートフォンなどのデバイス上で使用することができる。 - Stability AI、データベースクエリ、コード変換など幅広いコーディングタスクに対応する生成AI「Stable Code Instruct 3B」を発表
Stability AIは、同社のコーディング用生成AI「Stable Code 3B」をベースにした指示学習済みの大規模言語モデル「Stable Code Instruct 3B」を発表した。 - LLM、AIツールの活用がAPIの需要増加要因に Gartner予測
Gartnerによると、2026年までにAPIの需要増加の30%以上は、大規模言語モデル(LLM)を使用するAIやツールからの需要が寄与するようになる見通しだ。