Amazon Reviews (Musical Instruments)

Informacje podstawowe

  • Nazwa: Amazon Musical Instruments Review Dataset
  • Alias: Amazon, Amazon Reviews
  • Dziedzina: Fraud Detection, E-commerce, Review Spam Detection
  • Typ: Graph data (user-review network)

Źródło

  • URL: Dostępny publicznie (część Amazon Review Data)
  • Paper: From amateurs to connoisseurs: modeling the evolution of user expertise through online reviews (McAuley & Leskovec, 2013)
  • Organizacja: Stanford University
  • Rok: 2013

Charakterystyka

  • Rozmiar: 11,944 nodes, 4,398,392 edges
  • Podział: Określany przez użytkowników (typowo 5-fold cross-validation)
  • Klasy/Kategorie: Binary (legitimate users vs fake review writers)
  • Format: Graph structure with node features
  • Licencja: Publicly available
  • Feature dimension: 25 hand-crafted user features and statistics

Opis

Amazon Musical Instruments Review Dataset zawiera użytkowników piszących fake reviews w kategorii instrumentów muzycznych na Amazon.com. Dataset reprezentuje relacje między użytkownikami i recenzjami jako graf, gdzie węzły to użytkownicy a krawędzie reprezentują correlations w review patterns.

Każdy węzeł ma 25 hand-crafted features opisujące user behavior statistics, review patterns i metadata. Dataset jest używany do wykrywania fraudulent reviewers którzy manipulują product ratings.

Zastosowania

  • Fake review detection w e-commerce
  • User behavior analysis
  • Graph-based fraud detection
  • Review manipulation detection
  • Benchmarking fraud detection algorithms

Używany w publikacjach

Benchmarki

ModelMetricScoreRokPublikacja
PNARec@K90.78%2020Corso et al.
GAAPRec@K87.50%2025Duan et al. AAAI-25
NARec@K87.50%2016Yang et al.
XGBoostRec@K86.41%2016Chen & Guestrin
RFRec@K86.41%2001Breiman
DGA-GNNRec@K85.87%2024Duan et al.
XGBGraphRec@K85.87%2024Tang et al.

Uwagi

  • Jedyny dataset na którym GAAP nie osiągnęło 1st place (2nd best)
  • Możliwa przyczyna: noise in graph structure information (według autorów publikacji)
  • Graph structure może powodować instability during optimization
  • Relation concept: Review Correlation (hand-crafted user features and statistics)
  • Relatywnie mały dataset (11,944 nodes) ale bardzo gęsty (4.4M edges)

Tagi

dataset fraud-detection fake-reviews e-commerce amazon graph-data user-behavior benchmark