Mendeley Phishing Websites Dataset
Informacje podstawowe
- Nazwa: Mendeley Phishing Websites Dataset
- Alias: Phishing Websites Dataset, Mendeley Phishing
- Dziedzina: Cybersecurity, Phishing Detection
- Typ: Web data (URLs, HTML, metadata)
Źródło
- URL: https://doi.org/10.17632/n96ncsr5g4.1
- Paper: Phishing Websites Dataset (Mendeley Data, V1, 2021)
- Autorzy: S. Ariyadasa, S. Fernando, S. Fernando
- Organizacja: Mendeley Data
- Rok: 2021
Charakterystyka
- Rozmiar: Varies (publikacja użyła sampel 1000 stron: 500 phishing + 500 legitimate)
- Podział: Balanced binary classification
- Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
- Format: URL, HTML source, metadata
- Licencja: Open access (Mendeley Data)
Opis
Mendeley Phishing Websites Dataset to zbiór danych zawierający strony phishingowe i legit ymne zebrane z różnych źródeł. Dataset zawiera:
- URL strony internetowej
- HTML source code strony
- Metadata (np. informacje WHOIS, third-party features)
Dane pochodzą z:
- Google Search
- Ebbu2017 Phishing Dataset
- PhishTank
- OpenPhish
- PhishRepo
Dataset jest używany do trenowania i ewaluacji modeli machine learning/deep learning do wykrywania phishingu.
Zastosowania
- Training klasyfikatorów phishing detection (ML, DL, LLM-based)
- Benchmarking algorytmów wykrywania phishingu
- Analiza charakterystyk stron phishingowych vs legitimate
- Research w dziedzinie cybersecurity i web security
- Testowanie URL-based, HTML-based i content-based detection methods
Używany w publikacjach
- phishdebate-2025 - Performance benchmarking multi-agent LLM framework, sampel 500 phishing + 500 legitimate
Benchmarki
| Model/System | Metric | Score | Rok | Publikacja |
|---|---|---|---|---|
| PhishDebate (GPT-4o) | Accuracy | 96.50% | 2025 | PhishDebate |
| PhishDebate (GPT-4o) | Precision | 94.97% | 2025 | PhishDebate |
| PhishDebate (GPT-4o) | Recall | 98.2% | 2025 | PhishDebate |
| PhishDebate (GPT-4o) | F1 Score | 96.56% | 2025 | PhishDebate |
Uwagi
- Dataset zawiera mixed sources, co zapewnia różnorodność phishing tactics
- Idealny do balanced binary classification tasks
- HTML source może wymagać preprocessingu (cleaning, feature extraction)
- Metadata może zawierać third-party features (WHOIS, Alexa rank) - sprawdzić dostępność
- Mendeley Data zapewnia persistent DOI dla reproducibility
Tagi
dataset phishing-detection cybersecurity web-security binary-classification html url-analysis