Blog

Google prezentuje RETVec: Nową ochronę Gmaila przed spamem i złośliwymi wiadomościami e-mail

Google wprowadził nowy wielojęzyczny wektoryzator tekstu o nazwie RETVec (Resilient and Efficient Text Vectorizer), który ma za zadanie poprawić zdolność Gmaila do wykrywania potencjalnie szkodliwych treści, takich jak spam i złośliwe wiadomości e-mail.

 

RETVec został przeszkolony do odporności na manipulacje na poziomie znaków, w tym wstawianie, usuwanie, literówki, homoglify, podstawienia LEET i inne, co opisano na stronie projektu na GitHub. Model wykorzystuje nowatorski koder znaków, który może efektywnie kodować wszystkie znaki i słowa w formacie UTF-8.

W kontekście cyberbezpieczeństwa, duże platformy takie jak Gmail i YouTube wykorzystują modele klasyfikacji tekstu do wykrywania ataków phishingowych, nieodpowiednich komentarzy i oszustw. Jednak grupy zagrażające opracowały strategie mające na celu obejście tych środków ochronnych. Uciekają się do kontradyktoryjnych manipulacji tekstem, które obejmują użycie homoglifów, upychanie słów kluczowych i niewidzialne znaki.

RETVec, który od razu działa w ponad 100 językach, ma na celu pomoc w tworzeniu bardziej odpornych i wydajnych klasyfikatorów tekstu po stronie serwera i na urządzeniu, a jednocześnie być bardziej niezawodnym i tańszym obliczeniowo.

Wektoryzacja jest metodologią przetwarzania języka naturalnego (NLP), polegającą na mapowaniu słów lub fraz ze słownictwa na odpowiednią reprezentację numeryczną w celu przeprowadzenia dalszej analizy, takiej jak analiza nastrojów, klasyfikacja tekstu i rozpoznawanie nazwanych jednostek.

Google RETVec działa od razu po wyjęciu z pudełka na każdym języku i wszystkich znakach UTF-8 bez konieczności wstępnego przetwarzania tekstu, co czyni go idealnym kandydatem do klasyfikacji tekstu na urządzeniu, w Internecie i na dużą skalę wdrożeń - zauważyli Elie Bursztein i Marina Zhang z Google.

Integracja wektoryzatora z Gmailem poprawiła współczynnik wykrywania spamu o 38% w porównaniu z wartością bazową i zmniejszyła odsetek fałszywych alarmów o 19,4%. Zmniejszyło to również wykorzystanie modułu przetwarzania Tensor (TPU) w modelu o 83%.

„Modele trenowane za pomocą RETVec charakteryzują się większą szybkością wnioskowania ze względu na zwartą reprezentację. Posiadanie mniejszych modeli zmniejsza koszty obliczeniowe i zmniejsza opóźnienia, co ma kluczowe znaczenie w przypadku aplikacji na dużą skalę i modeli na urządzeniach” - dodali Bursztein i Zhang.

TAGS: usłui informatyczne Wrocław, opieka informatyczna Wrocławobsługa informatyczna Wrocław