Googleは、UIとインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2024年3月19日(米国時間)、ユーザーインタフェース(UI)とインフォグラフィックスの理解に特化した視覚言語モデル「ScreenAI」を公式ブログで紹介した。
画面UIとインフォグラフィックスは、類似した視覚言語とデザイン原理を共有しており、人間のコミュニケーションや人間と機械のインタラクションにおいて重要な役割を果たしている。だが、複雑さや多様な表現形式から、モデリングにおいてユニークな課題が存在していた。
そこでGoogleは、ScreenAIの研究開発に乗り出した。ScreenAIは、「PaLI」(Pathways Language and Image)アーキテクチャを「pix2struct」の柔軟なパッチ戦略で改良したものだ。データセットとタスクのユニークな組み合わせでトレーニングされている。
PaLIは、視覚入力とテキスト入力に基づいてテキストを生成し、このインタフェースを用いて、多くの言語でさまざまな視覚、言語、マルチモーダルタスクを実行する多言語言語画像モデルだ。pix2structは、純粋に視覚的な言語の理解を目的とした事前トレーニング済み画像テキスト変換モデルで、言語入力と視覚入力を柔軟に統合するという。
Copyright © ITmedia, Inc. All Rights Reserved.