Google が公表した RETVec：Gmail からスパムや敵対行為を取り除くベクタラーザーとは？

Google Unveils RETVec – Gmail’s New Defense Against Spam and Malicious Emails

2023/11/30 TheHackerNews — Google が公開したのは、RETVec (Resilient and Efficient Text Vectorizer の略) と呼ばれる新たな多言語テキスト・ベクタライザーである。それにより、Gmail 内のスパムや悪意のメールなどの、有害と推定されるコンテンツの検出が推進される。GitHub 上のプロジェクト説明には、RETVec は、挿入／削除／タイプミス／ホモグリフ／ LEET 置換などなどの、文字レベルでの悪意の操作に対して、回復力を持つように訓練されている。RETVec モデルは、すべての UTF-8 文字と単語を効率的に変換するための、新たな文字エンコーダー上で学習される」と記されている。

Gmail や YouTube のような巨大なプラットフォームが、テキスト分類モデルに依存することで、フィッシング攻撃／不適切なコメント／詐欺などを発見しようとする一方で、それらの防御策を回避する脅威アクターたちは、常に対抗策を考案し続けている。

脅威アクターたちは、同形異義語の悪用から、キーワードの詰め込み、見えない文字の使用などにいたるまでの、敵対的なテキスト操作を用いることが観察されている。

RETVec は、直ちに 100以上の言語で動作するものである。そして、サーバ・サイドおよびデバイス上で、より堅牢で効率的であると同時に、より弾力的で効率的なキスト分類を支援することを目的としている。

ベクトル化という手法は、自然言語処理 (NLP) において、感情分析／テキスト分類／名前付きエンティティ認識などの分析を行うために、語彙から単語やフレーズを対応する数値表現にマッピングするものである。

Google の Elie Bursztein と Marina Zhang は、「RETVec は、その新しいアーキテクチャにより、テキストの前処理を必要とせずに、すべての言語と、すべての UTF-8 文字を、瞬時に処理する。デバイスや Web での、大規模なテキスト分類の導入において最適な候補となる」と述べている。

Google は、ベクタライザーを Gmail に統合することで、スパム検出率がベース・ラインと比べて 38％も向上し、誤検出率が 19.4％も減少したと述べている。また、この種のモデルにおける Tensor Processing Unit (TPU) 使用量を 83％も削減したという。

Bursztein と Zhang は「RETVec で訓練されたモデルは、そのコンパクトな表現により、より高速で推論している。モデルが小さくなることで、計算コストが削減され、レイテンシが減少する。それは、大規模なアプリケーションやオンデバイス・モデルにとって極めて重要なことである」と付け加えている。

不要なメールをバシバシと切り捨ててくれる Gmail ですが、悪意のメールに対してもチェックを強化してくれるということで、嬉しい限りです。また、UTF-8 についても言及されていますが、訳していて思い出したのは、2023/03/23 の「Python の Unicode を悪用：新たな情報スティーラーは巧妙に検出を回避する」での解説です。そして、Unicode と UTF-8 の違いが気になり、調べてみたら Qiita に素晴らしいマトメがありました。

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Share this: