ELFW-2031

Informacje podstawowe

Nazwa: ELFW-2031 (E-commerce Legitimate Fraudulent Websites)
Alias: E-commerce Legitimate Fraudulent Websites Dataset
Dziedzina: Cybersecurity, E-commerce Security, Fraud Detection
Typ: Multimodal (HTML, images, JSON, text, certificates)

Źródło

URL: https://gvis.unileon.es (dostępny na żądanie przez email)
Paper: Fraud detection in e-commerce: a comparative analysis of features to enhance machine learning models (2026)
DOI Paper: https://doi.org/10.1007/s10660-025-10029-9
Organizacja: University of León, INCIBE (Spanish National Cybersecurity Institute)
Rok: 2022 (zbieranie: listopad 2020 - listopad 2022)

Charakterystyka

Rozmiar: 2031 próbek stron e-commerce
- Legitne: 1292 strony
- Oszukańcze: 739 stron
Podział: Brak oficjalnego podziału train/val/test (użytkownicy stosują 5-fold cross-validation)
Klasy/Kategorie: Binary classification (legitimate vs fraudulent)
- 13 kategorii produktów: Fashion, Marketplace, Sport, Home, Health, Technology, Food, Education, Entertainment, Automotive, Toys, Pets, Office/Industrial
Format: Wieloformatowy
- URL: .txt
- HTML: .html (z CSS i JavaScript)
- Screenshots: .png (2 na stronę, 1848x911px)
- HTTP headers: .json
- SSL certificates: .json
- Web technologies: .json (Wappalyzer output)
- Social media data: .json
- Text pages: .html (regulaminy, privacy policy)
- Offline copy: kompletna struktura katalogów (WGET)
Licencja: Dostępny na żądanie (request-based access)
Rozmiar danych: ~3GB (z offline copies)

Opis

ELFW-2031 to pierwszy comprehensive, publicznie dostępny dataset zawierający kompletne zasoby webowe dla 2031 stron e-commerce. W przeciwieństwie do poprzednich prac, które publikowały tylko wyekstrahowane cechy, ten dataset dostarcza surowe dane umożliwiające badaczom projektowanie własnych metod ekstrakcji cech.

Kluczowe cechy datasetu:

Ręczna weryfikacja: Wszystkie strony oszukańcze zostały zidentyfikowane przez ekspertów cyberbezpieczeństwa z INCIBE, legitne strony pochodzą z certyfikowanego rejestru “Confianza Online”
Comprehensive resources: Każda próbka zawiera 9 typów zasobów:
- Kompletny URL (po redirectach)
- Pełny kod HTML (z CSS/JS)
- 2 high-resolution screenshoty
- Nagłówki HTTP (security headers)
- Certyfikat SSL i dane o ważności
- Web technologies (1950 tech, 71 kategorii via Wappalyzer)
- Metryki social media (Facebook, Instagram, Twitter, Trustpilot via API)
- Strony tekstowe (terms, privacy policy)
- Offline copy (wszystkie pliki potrzebne do renderowania offline)
Aktualne dane: Zebrane w latach 2020-2022, reprezentują rzeczywiste zagrożenia w ekosystemie e-commerce
Geographic diversity: Głównie strony hiszpańskie (92.34% legitne, 79.29% oszukańcze), ale także anglojęzyczne i inne
No GDPR-restricted data: Dataset celowo nie zawiera danych WHOIS (niedostępnych w EU), zapewniając długoterminową użyteczność

Zastosowania

Fraud detection: Trening modeli ML do wykrywania oszukańczych stron e-commerce
Feature engineering research: Projektowanie nowych cech dla fraud detection
Phishing vs fraud comparison: Badanie różnic między phishingiem a fake e-commerce
Counterfeit product detection: Identyfikacja stron sprzedających podróbki
Brand impersonation: Wykrywanie stron podszywających się pod znane marki
Technology fingerprinting: Analiza różnic w stacku technologicznym legitimate vs fraudulent
Social media validation: Badanie skuteczności weryfikacji przez social media
Multi-modal learning: Łączenie różnych typów danych (text, images, metadata)
Real-time detection systems: Prototypowanie systemów ochrony w czasie rzeczywistym
Dataset methodology: Wzorzec dla tworzenia datasetów cybersecurity

Używany w publikacjach

fraud-detection-ecommerce-ml-2026 - Oryginalny paper wprowadzający dataset. Autorzy wyekstrahowali 50 cech z 6 grup zasobów i osiągnęli 96.88% F1-score (XGBoost) dla full model oraz 96.53% dla standalone model (bez external services).

Benchmarki

Model	Features	Classifier	Precision	Recall	F1-Score	Accuracy	Rok	Publikacja
Full Set (50 features)	URL, HTML, Tech, SSL, Headers, External	XGBoost	97.78%	96.01%	96.88%	97.78%	2026	Sánchez-Paniagua et al.
Standalone (42 features)	URL, HTML, Tech, SSL, Headers	XGBoost	96.47%	96.60%	96.53%	97.49%	2026	Sánchez-Paniagua et al.
Full Set	All	GBC	97.51%	96.19%	96.84%	97.73%	2026	Sánchez-Paniagua et al.
Full Set	All	Random Forest	98.47%	94.83%	96.61%	97.59%	2026	Sánchez-Paniagua et al.

Resource-specific benchmarks (isolated groups):

HTML only (17 features): 95.41% F1 (XGBoost)
External only (8 features): 86.67% F1 (GBC)
Tech only (9 features): 83.29% F1 (XGBoost)
Headers only (6 features): 77.40% F1 (GBC)
SSL only (2 features): 68.03% F1 (GBC)
URL only (8 features): 59.91% F1 (GBC)

Uwagi

Dostępność:

Dataset jest dostępny na żądanie przez kontakt email z zespołem: https://gvis.unileon.es
Po procesie recenzji, autorzy planują udostępnić bezpośredni link do pobrania
Alternatywna wersja bez WGET files może być dostarczona dla zmniejszenia rozmiaru i ryzyka (strony mogą zawierać malicious code)

Bezpieczeństwo:

⚠️ UWAGA: Offline copies mogą zawierać malicious files lub kod - używaj w izolowanym środowisku
Zalecane: analiza w VM lub sandboxed environment
Nie uruchamiać JavaScript code z oszukańczych stron bez odpowiednich zabezpieczeń

Ograniczenia:

Rozmiar: 2031 próbek może być za mały dla niektórych deep learning approaches (autorzy sugerują active learning lub transfer learning)
Geographic bias: Dominacja stron hiszpańskojęzycznych
Temporal: Zebrane w 2020-2022, może nie reprezentować najnowszych technik oszustów
Category imbalance: Fashion (41.95% fraud) i Marketplace (31.27% fraud) dominują w klasie fraudulent

Best practices:

Użyj 5-fold cross-validation dla rzetelnej oceny (random_state=42 dla powtarzalności)
StandardScaler dla normalizacji cech przed treningiem
Rozważ class imbalance (1292 legit vs 739 fraud) - może wymagać balancingu
Dla production: użyj standalone features (bez external APIs) dla reliability

Future extensions:

Autorzy planują continuous updates z nowymi fraudulent websites
Możliwość dodania więcej języków i regionów geograficznych
Rozszerzenie o phishing samples dla comprehensive fraud detection

Statystyki dodatkowe

Rozkład kategorii (top 5):

Fraud: Fashion 41.95%, Marketplace 31.27%, Sport 14.21%, Technology 2.30%, Home 2.57%
Legit: Home 16.10%, Fashion 13.86%, Technology 13.62%, Health 10.99%, Marketplace 10.99%

Language distribution:

Legit: Spanish 92.34%, English 4.49%, Other 3.17%
Fraud: Spanish 79.29%, English 15.97%, Other 4.74%

Social media presence (after filtering share links):

Legit: 83.78% have real social media profiles
Fraud: 2.68% have real social media profiles

Technology stack:

Legit: Average 15-20 detected technologies (e-commerce platforms, analytics, live-chat, payment processors)
Fraud: Average 3-5 detected technologies (minimal tech stack, often just web server + basic JS)

Tagi

dataset cybersecurity fraud-detection e-commerce machine-learning phishing web-security social-media-validation technology-fingerprinting binary-classification supervised-learning incibe university-of-leon multimodal html-analysis ssl-certificates

Research

Przeglądaj

ELFW-2031

ELFW-2031

Informacje podstawowe

Źródło

Charakterystyka

Opis

Zastosowania

Używany w publikacjach

Benchmarki

Uwagi

Statystyki dodatkowe

Tagi

Graf

Spis treści

Odnośniki zwrotne