Googleは、オープンソースの多言語テキストベクタライザ「RETVec」(Resilient & Efficient Text Vectorizer)を用いて「Gmail」の受信トレイの保護を大幅に強化した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Googleは2023年11月29日(米国時間)、オープンソースの新しい効率的な多言語テキストベクタライザ「RETVec」(Resilient & Efficient Text Vectorizer)を用いて「Gmail」の受信トレイの保護を大幅に強化したことをセキュリティブログで明らかにした。
GoogleのGmail、「YouTube」「Google Play」などのシステムは、フィッシング攻撃や不適切なコメント、詐欺などの有害コンテンツを識別するために、テキスト分類モデルを利用している。この種のテキストは、機械学習モデルによる分類が難しい。攻撃者が敵対的なテキスト操作(ホモグリフ《※》や見えない文字の使用、キーワード詰め込みなど)によって分類器を回避しようとするからだ。
(※)ホモグリフは、同一または非常によく似た形の複数の書記素、文字、字体や、こうした特性を持つ複数の文字の列を指す
Googleは、テキスト分類器をより堅牢(けんろう)かつ効率的にするために、RETVecを開発した。RETVecの有用性を評価する目的で過去1年間、Google社内で広範な実証テストを行ったところ、RETVecがセキュリティや不正利用防止に非常に効果的なことが分かった。
Googleによると、Gmailのスパム分類器の従来のテキストベクタライザをRETVecに置き換えることで、スパム検出率が38%向上し、誤検出率が19.4%減少したという。さらに、モデルのTPU(Tensor Processing Unit)使用量も83%減少し、RETVecの導入は、近年で最大級の防御の強化につながった。
RETVecは、非常に軽量な単語埋め込みモデル(20万パラメーター以下)を使用し、Transformerモデルのサイズを縮小しつつ同等以上のパフォーマンス確保を可能にし、ネットワーク効率とメモリ効率の高い方法でホストとTPUの間で計算を分割することで、これらの改善を達成した。
これらは、非常にコンパクトな文字エンコーダー、オーグメンテーション駆動型トレーニング、メトリック学習を組み合わせることで実現されている。
「RETVecは、その斬新なアーキテクチャにより、テキストの前処理を必要とせず、全ての言語と全てのUTF-8文字ですぐに動作する。そのため、デバイス上、Web上での大規模なテキスト分類の展開の理想的な選択肢となる」(Google)
RETVecでトレーニングされたモデルは、そのコンパクトな表現により、より速い推論速度を発揮する。より小さなモデルを持つことで、計算コストとレイテンシ(遅延)が低減される。これは、大規模アプリケーションやオンデバイスモデルにとって極めて重要だ。
RETVecでトレーニングされたモデルは、モバイルデバイスやエッジデバイス用にTFLiteにシームレスに変換できる。TensorFlow Textにネイティブに実装されるからだ。
また、Webアプリケーション向けのモデル展開のために、TensorflowJSレイヤーの実装がGitHubで提供されている。RETVecベースのモデルを実行するデモ用Webページも開設されている。
Copyright © ITmedia, Inc. All Rights Reserved.