Pobierz PDF

Multimodal and Contrastive Learning for Click Fraud Detection

Metadane

Autorzy: Weibin Li, Qiwei Zhong, Qingyang Zhao, Hongchun Zhang, Xiaonan Meng
Rok: 2021
Źródło: DeMaL@WWW ‘21 (April 19-23, 2021, Ljubljana, Slovenia)
DOI/Link: arXiv:2105.03567v1 [cs.LG]
Status: read
Kategoria: Machine Learning, Fraud Detection
Tagi: fraud-detection multimodal-learning contrastive-learning ecommerce deep-learning graph-neural-networks bert

Streszczenie

Publikacja przedmiotuje problem detekcji oszustw kliknięć w platformach e-commerce, który stanowi istotne zagrożenie dla biznesu reklam internetowych. Autorzy proponują innowacyjne podejście MCCF (Multimodal and Contrastive learning network for Click Fraud detection), które łączy trzy źródła informacji: cechy statystyczne i kategoryczne (Wide & Deep), sekwencje zachowań użytkowników (BERT) oraz heterogeniczne sieci mediów (GNN). Model wykorzystuje contrastive learning do rozwiązania problemu braku zrównoważenia danych treningowych (zaledwie ~10% oszustw).

Badania przeprowadzone na rzeczywistym zbiorze danych z platformy Alibaba.com zawierającym 3,29 miliona kliknięć wykazały, że proponowana metoda osiąga znaczące poprawy wydajności: AUC wzrasta o 7,2%, a F1-score o 15,6% w porównaniu z metodami istniejącymi. Model wykazuje szczególną skuteczność w wykrywaniu zaawansowanych oszustw, w tym oszustw grupowych, które starają się imitować naturalne zachowanie użytkowników.

Kluczowe Wnioski

Fraudsterzy wykazują wyraźnie różne charakterystyki statystyczne od użytkowników autentycznych: więcej kliknięć na IP, krótsze przedziały czasowe między kliknięciem a utworzeniem pliku cookie
Zachowania w przeglądarce różnią się znacząco: fraudsterzy koncentrują się na stronach głównych i szczegółów (>99%), podczas gdy użytkownicy autentyczni mają bardziej zróżnicowany wzór
Liczba powiązanych mediów (IP, CookieID, DeviceID) jest znacznie wyższa dla oszustów: 21,86% fraudsterów ma co najmniej 3 powiązane media vs 6,31% dla użytkowników autentycznych
Multimodalne podejście jest istotne: każda z trzech modalności wnosi pozytywny wkład do wydajności modelu
Contrastive learning (NT-Xent loss) jest bardziej efektywny niż tradycyjna cross-entropy do obsługi niezrównoważonego zbioru danych

Metodologia

Proponowany model MCCF składa się z czterech głównych komponentów:

Wide and Deep Network: Przetwarza cechy statystyczne (szerokość: wartości pierwotne, kombinacje cech, informacje demograficzne) i cechy kategoryczne (AdvertiserID, KeywordID) przez wielowarstwową sieć neuronową
Behavior Sequence Network: Wykorzystuje model BERT do analizy sekwencji stron odwiedzonych przez użytkownika przed kliknięciem (do 300 kroków), zwracając uwagę na typy stron rozróżniające oszustwa od autentycznych kliknięć
Multi-media Heterogeneous Network: Buduje graf z trzema typami węzłów (IP, CookieID, DeviceID) i agreguje informacje o sąsiadach używając średniej agregacji. Każdy węzeł posiada 542 atrybuty (informacje demograficzne, częstotliwość kliknięć), każda relacja ma 90 atrybutów
Integration and Contrastive Training: Łączy reprezentacje z trzech modułów przez dwie w pełni połączone warstwy, szkoląc model z wykorzystaniem NT-Xent loss (normalized temperature-scaled cross entropy) zamiast standardowej cross-entropy, co pozwala lepiej obsługiwać niezrównoważenie danych

Dane treningowe zawierają 2,54 miliona kliknięć (10,89% pozytywnych), dane testowe 0,75 miliona (10,17% pozytywnych).

Główne Koncepcje

Click Fraud: Oszustwo polegające na kliknięciu reklam w celu wyczerpania budżetu konkurenta lub inflacji przychodów
Wide & Deep Features: Kombinacja cech ciągłych (szeroki component) i kategorycznych (głębokie zagnieżdżenia) dla wszechstronnej reprezentacji
Contrastive Learning: Technika uczenia maszynowego, która umieszcza próbki tej samej klasy blisko siebie w przestrzeni osadzenia, a próbki różnych klas daleko od siebie
Heterogeneous Network: Sieć zawierająca węzły i krawędzie wielu typów, reprezentujące różne jednostki mediów i ich interakcje
NT-Xent Loss: Znormalizowana temperatura skalowana cross-entropy loss, rozszerzenie N-pair loss używane w contrastive learning

Wyniki

Eksperymentalne wyniki na rzeczywistym zbiorze danych Alibaba:

Metoda	Precision	Recall	F1-score	AUC
Random Forest	0.867	0.403	0.550	0.685
LightGBM	0.892	0.416	0.567	0.686
GraphSAGE	0.973	0.545	0.699	0.785
BiLSTM	0.966	0.480	0.641	0.755
TextCNN	0.981	0.604	0.747	0.804
BERT	0.984	0.619	0.760	0.861
MCCF	0.987	0.854	0.916	0.933

MCCF osiąga F1-score wyższy o 21,7% od najlepszych metod drzew decyzyjnych i grafów, i o 15,6% wyższy niż BERT. Ablacyjne testy wykazują, że każda modalność wnosi wkład, ze znaczącym wpływem sekwencji zachowań.

Przydatne Cytaty

“Advertising click fraud detection plays one of the vital roles in current E-commerce websites as advertising is an essential component of its business model.” (str. 1)

“Fraudsters frequently switch IP and clear cookies to make their statistical features look like genuine. However, their behavior sequence might be abnormal, such as only visiting search and advertising pages.” (str. 1)

“The World Federation of Advertisers says ad fraud will cost advertisers $50 billion a year by 2025” (str. 1)

“The main contributions of this work are summarized as follows: To the best of our knowledge, we are the first attempt to incorporate multimodal information and contrastive learning for click fraud detection.” (str. 2)

Datasety

Alibaba Click Fraud Dataset: Rzeczywisty zbiór danych z platformy Alibaba.com zawierający 3,29 miliona kliknięć (2,54M do treningu, 0,75M do testowania) z bogatymi informacjami behawioralnymi i relacyjnymi między mediami

Powiązane Tematy

Uczenie kontrastywne (Contrastive Learning)
Sieci neuronowe na grafach (Graph Neural Networks, GNN)
Model BERT i transformatory
Uczenie multimodalne
Niezrównoważone zbiory danych w klasyfikacji
Detektory anomalii i oszustw
Rekomendacyjne systemy deep learning
Feature engineering dla e-commerce

Research

Przeglądaj

Multimodal and Contrastive Learning for Click Fraud Detection

Multimodal and Contrastive Learning for Click Fraud Detection

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Główne Koncepcje

Wyniki

Przydatne Cytaty

Datasety

Powiązane Tematy

Notatki