ELFW-2031

Informacje podstawowe

  • Nazwa: ELFW-2031 (E-commerce Legitimate Fraudulent Websites)
  • Alias: E-commerce Legitimate Fraudulent Websites Dataset
  • Dziedzina: Cybersecurity, E-commerce Security, Fraud Detection
  • Typ: Multimodal (HTML, images, JSON, text, certificates)

Źródło

  • URL: https://gvis.unileon.es (dostępny na żądanie przez email)
  • Paper: Fraud detection in e-commerce: a comparative analysis of features to enhance machine learning models (2026)
  • DOI Paper: https://doi.org/10.1007/s10660-025-10029-9
  • Organizacja: University of León, INCIBE (Spanish National Cybersecurity Institute)
  • Rok: 2022 (zbieranie: listopad 2020 - listopad 2022)

Charakterystyka

  • Rozmiar: 2031 próbek stron e-commerce
    • Legitne: 1292 strony
    • Oszukańcze: 739 stron
  • Podział: Brak oficjalnego podziału train/val/test (użytkownicy stosują 5-fold cross-validation)
  • Klasy/Kategorie: Binary classification (legitimate vs fraudulent)
    • 13 kategorii produktów: Fashion, Marketplace, Sport, Home, Health, Technology, Food, Education, Entertainment, Automotive, Toys, Pets, Office/Industrial
  • Format: Wieloformatowy
    • URL: .txt
    • HTML: .html (z CSS i JavaScript)
    • Screenshots: .png (2 na stronę, 1848x911px)
    • HTTP headers: .json
    • SSL certificates: .json
    • Web technologies: .json (Wappalyzer output)
    • Social media data: .json
    • Text pages: .html (regulaminy, privacy policy)
    • Offline copy: kompletna struktura katalogów (WGET)
  • Licencja: Dostępny na żądanie (request-based access)
  • Rozmiar danych: ~3GB (z offline copies)

Opis

ELFW-2031 to pierwszy comprehensive, publicznie dostępny dataset zawierający kompletne zasoby webowe dla 2031 stron e-commerce. W przeciwieństwie do poprzednich prac, które publikowały tylko wyekstrahowane cechy, ten dataset dostarcza surowe dane umożliwiające badaczom projektowanie własnych metod ekstrakcji cech.

Kluczowe cechy datasetu:

  1. Ręczna weryfikacja: Wszystkie strony oszukańcze zostały zidentyfikowane przez ekspertów cyberbezpieczeństwa z INCIBE, legitne strony pochodzą z certyfikowanego rejestru “Confianza Online”

  2. Comprehensive resources: Każda próbka zawiera 9 typów zasobów:

    • Kompletny URL (po redirectach)
    • Pełny kod HTML (z CSS/JS)
    • 2 high-resolution screenshoty
    • Nagłówki HTTP (security headers)
    • Certyfikat SSL i dane o ważności
    • Web technologies (1950 tech, 71 kategorii via Wappalyzer)
    • Metryki social media (Facebook, Instagram, Twitter, Trustpilot via API)
    • Strony tekstowe (terms, privacy policy)
    • Offline copy (wszystkie pliki potrzebne do renderowania offline)
  3. Aktualne dane: Zebrane w latach 2020-2022, reprezentują rzeczywiste zagrożenia w ekosystemie e-commerce

  4. Geographic diversity: Głównie strony hiszpańskie (92.34% legitne, 79.29% oszukańcze), ale także anglojęzyczne i inne

  5. No GDPR-restricted data: Dataset celowo nie zawiera danych WHOIS (niedostępnych w EU), zapewniając długoterminową użyteczność

Zastosowania

  • Fraud detection: Trening modeli ML do wykrywania oszukańczych stron e-commerce
  • Feature engineering research: Projektowanie nowych cech dla fraud detection
  • Phishing vs fraud comparison: Badanie różnic między phishingiem a fake e-commerce
  • Counterfeit product detection: Identyfikacja stron sprzedających podróbki
  • Brand impersonation: Wykrywanie stron podszywających się pod znane marki
  • Technology fingerprinting: Analiza różnic w stacku technologicznym legitimate vs fraudulent
  • Social media validation: Badanie skuteczności weryfikacji przez social media
  • Multi-modal learning: Łączenie różnych typów danych (text, images, metadata)
  • Real-time detection systems: Prototypowanie systemów ochrony w czasie rzeczywistym
  • Dataset methodology: Wzorzec dla tworzenia datasetów cybersecurity

Używany w publikacjach

  • fraud-detection-ecommerce-ml-2026 - Oryginalny paper wprowadzający dataset. Autorzy wyekstrahowali 50 cech z 6 grup zasobów i osiągnęli 96.88% F1-score (XGBoost) dla full model oraz 96.53% dla standalone model (bez external services).

Benchmarki

ModelFeaturesClassifierPrecisionRecallF1-ScoreAccuracyRokPublikacja
Full Set (50 features)URL, HTML, Tech, SSL, Headers, ExternalXGBoost97.78%96.01%96.88%97.78%2026Sánchez-Paniagua et al.
Standalone (42 features)URL, HTML, Tech, SSL, HeadersXGBoost96.47%96.60%96.53%97.49%2026Sánchez-Paniagua et al.
Full SetAllGBC97.51%96.19%96.84%97.73%2026Sánchez-Paniagua et al.
Full SetAllRandom Forest98.47%94.83%96.61%97.59%2026Sánchez-Paniagua et al.

Resource-specific benchmarks (isolated groups):

  • HTML only (17 features): 95.41% F1 (XGBoost)
  • External only (8 features): 86.67% F1 (GBC)
  • Tech only (9 features): 83.29% F1 (XGBoost)
  • Headers only (6 features): 77.40% F1 (GBC)
  • SSL only (2 features): 68.03% F1 (GBC)
  • URL only (8 features): 59.91% F1 (GBC)

Uwagi

Dostępność:

  • Dataset jest dostępny na żądanie przez kontakt email z zespołem: https://gvis.unileon.es
  • Po procesie recenzji, autorzy planują udostępnić bezpośredni link do pobrania
  • Alternatywna wersja bez WGET files może być dostarczona dla zmniejszenia rozmiaru i ryzyka (strony mogą zawierać malicious code)

Bezpieczeństwo:

  • ⚠️ UWAGA: Offline copies mogą zawierać malicious files lub kod - używaj w izolowanym środowisku
  • Zalecane: analiza w VM lub sandboxed environment
  • Nie uruchamiać JavaScript code z oszukańczych stron bez odpowiednich zabezpieczeń

Ograniczenia:

  • Rozmiar: 2031 próbek może być za mały dla niektórych deep learning approaches (autorzy sugerują active learning lub transfer learning)
  • Geographic bias: Dominacja stron hiszpańskojęzycznych
  • Temporal: Zebrane w 2020-2022, może nie reprezentować najnowszych technik oszustów
  • Category imbalance: Fashion (41.95% fraud) i Marketplace (31.27% fraud) dominują w klasie fraudulent

Best practices:

  • Użyj 5-fold cross-validation dla rzetelnej oceny (random_state=42 dla powtarzalności)
  • StandardScaler dla normalizacji cech przed treningiem
  • Rozważ class imbalance (1292 legit vs 739 fraud) - może wymagać balancingu
  • Dla production: użyj standalone features (bez external APIs) dla reliability

Future extensions:

  • Autorzy planują continuous updates z nowymi fraudulent websites
  • Możliwość dodania więcej języków i regionów geograficznych
  • Rozszerzenie o phishing samples dla comprehensive fraud detection

Statystyki dodatkowe

Rozkład kategorii (top 5):

  • Fraud: Fashion 41.95%, Marketplace 31.27%, Sport 14.21%, Technology 2.30%, Home 2.57%
  • Legit: Home 16.10%, Fashion 13.86%, Technology 13.62%, Health 10.99%, Marketplace 10.99%

Language distribution:

  • Legit: Spanish 92.34%, English 4.49%, Other 3.17%
  • Fraud: Spanish 79.29%, English 15.97%, Other 4.74%

Social media presence (after filtering share links):

  • Legit: 83.78% have real social media profiles
  • Fraud: 2.68% have real social media profiles

Technology stack:

  • Legit: Average 15-20 detected technologies (e-commerce platforms, analytics, live-chat, payment processors)
  • Fraud: Average 3-5 detected technologies (minimal tech stack, often just web server + basic JS)

Tagi

dataset cybersecurity fraud-detection e-commerce machine-learning phishing web-security social-media-validation technology-fingerprinting binary-classification supervised-learning incibe university-of-leon multimodal html-analysis ssl-certificates