＠IT
セキュリティ
Security & Trust
「Gmail」のスパムフィルターを大幅に強化したテキ...

「Gmail」のスパムフィルターを大幅に強化したテキストベクタライザ「RETVec」　何がすごいのか？：敵対的なテキスト操作に対する耐性が向上

Googleは、オープンソースの多言語テキストベクタライザ「RETVec」（Resilient & Efficient Text Vectorizer）を用いて「Gmail」の受信トレイの保護を大幅に強化した。

» 2023年12月07日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Googleは2023年11月29日（米国時間）、オープンソースの新しい効率的な多言語テキストベクタライザ「RETVec」（Resilient & Efficient Text Vectorizer）を用いて「Gmail」の受信トレイの保護を大幅に強化したことをセキュリティブログで明らかにした。

　GoogleのGmail、「YouTube」「Google Play」などのシステムは、フィッシング攻撃や不適切なコメント、詐欺などの有害コンテンツを識別するために、テキスト分類モデルを利用している。この種のテキストは、機械学習モデルによる分類が難しい。攻撃者が敵対的なテキスト操作（ホモグリフ《※》や見えない文字の使用、キーワード詰め込みなど）によって分類器を回避しようとするからだ。

（※）ホモグリフは、同一または非常によく似た形の複数の書記素、文字、字体や、こうした特性を持つ複数の文字の列を指す

RETVecでGmailのスパム分類器を強化

　Googleは、テキスト分類器をより堅牢（けんろう）かつ効率的にするために、RETVecを開発した。RETVecの有用性を評価する目的で過去1年間、Google社内で広範な実証テストを行ったところ、RETVecがセキュリティや不正利用防止に非常に効果的なことが分かった。

RETVecに基づくGmailのスパムフィルターの改善（提供：Google）

　Googleによると、Gmailのスパム分類器の従来のテキストベクタライザをRETVecに置き換えることで、スパム検出率が38％向上し、誤検出率が19.4％減少したという。さらに、モデルのTPU（Tensor Processing Unit）使用量も83％減少し、RETVecの導入は、近年で最大級の防御の強化につながった。

　RETVecは、非常に軽量な単語埋め込みモデル（20万パラメーター以下）を使用し、Transformerモデルのサイズを縮小しつつ同等以上のパフォーマンス確保を可能にし、ネットワーク効率とメモリ効率の高い方法でホストとTPUの間で計算を分割することで、これらの改善を達成した。