「Gmail」のスパムフィルターを大幅に強化したテキストベクタライザ「RETVec」 何がすごいのか?:敵対的なテキスト操作に対する耐性が向上
Googleは、オープンソースの多言語テキストベクタライザ「RETVec」(Resilient & Efficient Text Vectorizer)を用いて「Gmail」の受信トレイの保護を大幅に強化した。
Googleは2023年11月29日(米国時間)、オープンソースの新しい効率的な多言語テキストベクタライザ「RETVec」(Resilient & Efficient Text Vectorizer)を用いて「Gmail」の受信トレイの保護を大幅に強化したことをセキュリティブログで明らかにした。
GoogleのGmail、「YouTube」「Google Play」などのシステムは、フィッシング攻撃や不適切なコメント、詐欺などの有害コンテンツを識別するために、テキスト分類モデルを利用している。この種のテキストは、機械学習モデルによる分類が難しい。攻撃者が敵対的なテキスト操作(ホモグリフ《※》や見えない文字の使用、キーワード詰め込みなど)によって分類器を回避しようとするからだ。
(※)ホモグリフは、同一または非常によく似た形の複数の書記素、文字、字体や、こうした特性を持つ複数の文字の列を指す
RETVecでGmailのスパム分類器を強化
Googleは、テキスト分類器をより堅牢(けんろう)かつ効率的にするために、RETVecを開発した。RETVecの有用性を評価する目的で過去1年間、Google社内で広範な実証テストを行ったところ、RETVecがセキュリティや不正利用防止に非常に効果的なことが分かった。
Googleによると、Gmailのスパム分類器の従来のテキストベクタライザをRETVecに置き換えることで、スパム検出率が38%向上し、誤検出率が19.4%減少したという。さらに、モデルのTPU(Tensor Processing Unit)使用量も83%減少し、RETVecの導入は、近年で最大級の防御の強化につながった。
RETVecは、非常に軽量な単語埋め込みモデル(20万パラメーター以下)を使用し、Transformerモデルのサイズを縮小しつつ同等以上のパフォーマンス確保を可能にし、ネットワーク効率とメモリ効率の高い方法でホストとTPUの間で計算を分割することで、これらの改善を達成した。
RETVecの長所
これらは、非常にコンパクトな文字エンコーダー、オーグメンテーション駆動型トレーニング、メトリック学習を組み合わせることで実現されている。
「RETVecは、その斬新なアーキテクチャにより、テキストの前処理を必要とせず、全ての言語と全てのUTF-8文字ですぐに動作する。そのため、デバイス上、Web上での大規模なテキスト分類の展開の理想的な選択肢となる」(Google)
RETVecでトレーニングされたモデルは、そのコンパクトな表現により、より速い推論速度を発揮する。より小さなモデルを持つことで、計算コストとレイテンシ(遅延)が低減される。これは、大規模アプリケーションやオンデバイスモデルにとって極めて重要だ。
RETVecでトレーニングされたモデルは、モバイルデバイスやエッジデバイス用にTFLiteにシームレスに変換できる。TensorFlow Textにネイティブに実装されるからだ。
また、Webアプリケーション向けのモデル展開のために、TensorflowJSレイヤーの実装がGitHubで提供されている。RETVecベースのモデルを実行するデモ用Webページも開設されている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 日本人は詐欺メールの判別に年間で約35時間も費やしている マカフィー
マカフィーは、世界7カ国で実施した「詐欺メッセージに関するグローバル調査」の結果を発表した。日本人は毎日平均5.7件の偽メッセージを受け取っており、偽メッセージをクリックしてしまった日本人の割合は43%だった。 - GoogleはCPUの新たな脆弱性「Reptar」をどのように発見したのか
GoogleはIntelのCPUに影響を与える新しい脆弱性「Reptar」の調査結果を公開した。Reptarについては既に回避策が展開されている。 - Googleがある日突然「このIPアドレスには許可しません」とCAPTCHA認証を拒否 その理由は?
バラクーダは、2023年上半期のbotによる脅威に関する調査レポートを発表した。それによると、一般家庭で使われるIPアドレスを使用して、セキュリティブロックに引っ掛かることなく攻撃を行うbotがあるという。