ELFW-2031
Informacje podstawowe
- Nazwa: ELFW-2031 (E-commerce Legitimate Fraudulent Websites)
- Alias: E-commerce Legitimate Fraudulent Websites Dataset
- Dziedzina: Cybersecurity, E-commerce Security, Fraud Detection
- Typ: Multimodal (HTML, images, JSON, text, certificates)
Źródło
- URL: https://gvis.unileon.es (dostępny na żądanie przez email)
- Paper: Fraud detection in e-commerce: a comparative analysis of features to enhance machine learning models (2026)
- DOI Paper: https://doi.org/10.1007/s10660-025-10029-9
- Organizacja: University of León, INCIBE (Spanish National Cybersecurity Institute)
- Rok: 2022 (zbieranie: listopad 2020 - listopad 2022)
Charakterystyka
- Rozmiar: 2031 próbek stron e-commerce
- Legitne: 1292 strony
- Oszukańcze: 739 stron
- Podział: Brak oficjalnego podziału train/val/test (użytkownicy stosują 5-fold cross-validation)
- Klasy/Kategorie: Binary classification (legitimate vs fraudulent)
- 13 kategorii produktów: Fashion, Marketplace, Sport, Home, Health, Technology, Food, Education, Entertainment, Automotive, Toys, Pets, Office/Industrial
- Format: Wieloformatowy
- URL: .txt
- HTML: .html (z CSS i JavaScript)
- Screenshots: .png (2 na stronę, 1848x911px)
- HTTP headers: .json
- SSL certificates: .json
- Web technologies: .json (Wappalyzer output)
- Social media data: .json
- Text pages: .html (regulaminy, privacy policy)
- Offline copy: kompletna struktura katalogów (WGET)
- Licencja: Dostępny na żądanie (request-based access)
- Rozmiar danych: ~3GB (z offline copies)
Opis
ELFW-2031 to pierwszy comprehensive, publicznie dostępny dataset zawierający kompletne zasoby webowe dla 2031 stron e-commerce. W przeciwieństwie do poprzednich prac, które publikowały tylko wyekstrahowane cechy, ten dataset dostarcza surowe dane umożliwiające badaczom projektowanie własnych metod ekstrakcji cech.
Kluczowe cechy datasetu:
-
Ręczna weryfikacja: Wszystkie strony oszukańcze zostały zidentyfikowane przez ekspertów cyberbezpieczeństwa z INCIBE, legitne strony pochodzą z certyfikowanego rejestru “Confianza Online”
-
Comprehensive resources: Każda próbka zawiera 9 typów zasobów:
- Kompletny URL (po redirectach)
- Pełny kod HTML (z CSS/JS)
- 2 high-resolution screenshoty
- Nagłówki HTTP (security headers)
- Certyfikat SSL i dane o ważności
- Web technologies (1950 tech, 71 kategorii via Wappalyzer)
- Metryki social media (Facebook, Instagram, Twitter, Trustpilot via API)
- Strony tekstowe (terms, privacy policy)
- Offline copy (wszystkie pliki potrzebne do renderowania offline)
-
Aktualne dane: Zebrane w latach 2020-2022, reprezentują rzeczywiste zagrożenia w ekosystemie e-commerce
-
Geographic diversity: Głównie strony hiszpańskie (92.34% legitne, 79.29% oszukańcze), ale także anglojęzyczne i inne
-
No GDPR-restricted data: Dataset celowo nie zawiera danych WHOIS (niedostępnych w EU), zapewniając długoterminową użyteczność
Zastosowania
- Fraud detection: Trening modeli ML do wykrywania oszukańczych stron e-commerce
- Feature engineering research: Projektowanie nowych cech dla fraud detection
- Phishing vs fraud comparison: Badanie różnic między phishingiem a fake e-commerce
- Counterfeit product detection: Identyfikacja stron sprzedających podróbki
- Brand impersonation: Wykrywanie stron podszywających się pod znane marki
- Technology fingerprinting: Analiza różnic w stacku technologicznym legitimate vs fraudulent
- Social media validation: Badanie skuteczności weryfikacji przez social media
- Multi-modal learning: Łączenie różnych typów danych (text, images, metadata)
- Real-time detection systems: Prototypowanie systemów ochrony w czasie rzeczywistym
- Dataset methodology: Wzorzec dla tworzenia datasetów cybersecurity
Używany w publikacjach
- fraud-detection-ecommerce-ml-2026 - Oryginalny paper wprowadzający dataset. Autorzy wyekstrahowali 50 cech z 6 grup zasobów i osiągnęli 96.88% F1-score (XGBoost) dla full model oraz 96.53% dla standalone model (bez external services).
Benchmarki
| Model | Features | Classifier | Precision | Recall | F1-Score | Accuracy | Rok | Publikacja |
|---|---|---|---|---|---|---|---|---|
| Full Set (50 features) | URL, HTML, Tech, SSL, Headers, External | XGBoost | 97.78% | 96.01% | 96.88% | 97.78% | 2026 | Sánchez-Paniagua et al. |
| Standalone (42 features) | URL, HTML, Tech, SSL, Headers | XGBoost | 96.47% | 96.60% | 96.53% | 97.49% | 2026 | Sánchez-Paniagua et al. |
| Full Set | All | GBC | 97.51% | 96.19% | 96.84% | 97.73% | 2026 | Sánchez-Paniagua et al. |
| Full Set | All | Random Forest | 98.47% | 94.83% | 96.61% | 97.59% | 2026 | Sánchez-Paniagua et al. |
Resource-specific benchmarks (isolated groups):
- HTML only (17 features): 95.41% F1 (XGBoost)
- External only (8 features): 86.67% F1 (GBC)
- Tech only (9 features): 83.29% F1 (XGBoost)
- Headers only (6 features): 77.40% F1 (GBC)
- SSL only (2 features): 68.03% F1 (GBC)
- URL only (8 features): 59.91% F1 (GBC)
Uwagi
Dostępność:
- Dataset jest dostępny na żądanie przez kontakt email z zespołem: https://gvis.unileon.es
- Po procesie recenzji, autorzy planują udostępnić bezpośredni link do pobrania
- Alternatywna wersja bez WGET files może być dostarczona dla zmniejszenia rozmiaru i ryzyka (strony mogą zawierać malicious code)
Bezpieczeństwo:
- ⚠️ UWAGA: Offline copies mogą zawierać malicious files lub kod - używaj w izolowanym środowisku
- Zalecane: analiza w VM lub sandboxed environment
- Nie uruchamiać JavaScript code z oszukańczych stron bez odpowiednich zabezpieczeń
Ograniczenia:
- Rozmiar: 2031 próbek może być za mały dla niektórych deep learning approaches (autorzy sugerują active learning lub transfer learning)
- Geographic bias: Dominacja stron hiszpańskojęzycznych
- Temporal: Zebrane w 2020-2022, może nie reprezentować najnowszych technik oszustów
- Category imbalance: Fashion (41.95% fraud) i Marketplace (31.27% fraud) dominują w klasie fraudulent
Best practices:
- Użyj 5-fold cross-validation dla rzetelnej oceny (random_state=42 dla powtarzalności)
- StandardScaler dla normalizacji cech przed treningiem
- Rozważ class imbalance (1292 legit vs 739 fraud) - może wymagać balancingu
- Dla production: użyj standalone features (bez external APIs) dla reliability
Future extensions:
- Autorzy planują continuous updates z nowymi fraudulent websites
- Możliwość dodania więcej języków i regionów geograficznych
- Rozszerzenie o phishing samples dla comprehensive fraud detection
Statystyki dodatkowe
Rozkład kategorii (top 5):
- Fraud: Fashion 41.95%, Marketplace 31.27%, Sport 14.21%, Technology 2.30%, Home 2.57%
- Legit: Home 16.10%, Fashion 13.86%, Technology 13.62%, Health 10.99%, Marketplace 10.99%
Language distribution:
- Legit: Spanish 92.34%, English 4.49%, Other 3.17%
- Fraud: Spanish 79.29%, English 15.97%, Other 4.74%
Social media presence (after filtering share links):
- Legit: 83.78% have real social media profiles
- Fraud: 2.68% have real social media profiles
Technology stack:
- Legit: Average 15-20 detected technologies (e-commerce platforms, analytics, live-chat, payment processors)
- Fraud: Average 3-5 detected technologies (minimal tech stack, often just web server + basic JS)
Tagi
dataset cybersecurity fraud-detection e-commerce machine-learning phishing web-security social-media-validation technology-fingerprinting binary-classification supervised-learning incibe university-of-leon multimodal html-analysis ssl-certificates