Mendeley Phishing Websites Dataset

Informacje podstawowe

  • Nazwa: Mendeley Phishing Websites Dataset
  • Alias: Phishing Websites Dataset, Mendeley Phishing
  • Dziedzina: Cybersecurity, Phishing Detection
  • Typ: Web data (URLs, HTML, metadata)

Źródło

  • URL: https://doi.org/10.17632/n96ncsr5g4.1
  • Paper: Phishing Websites Dataset (Mendeley Data, V1, 2021)
  • Autorzy: S. Ariyadasa, S. Fernando, S. Fernando
  • Organizacja: Mendeley Data
  • Rok: 2021

Charakterystyka

  • Rozmiar: Varies (publikacja użyła sampel 1000 stron: 500 phishing + 500 legitimate)
  • Podział: Balanced binary classification
  • Klasy/Kategorie: 2 klasy (Phishing, Legitimate)
  • Format: URL, HTML source, metadata
  • Licencja: Open access (Mendeley Data)

Opis

Mendeley Phishing Websites Dataset to zbiór danych zawierający strony phishingowe i legit ymne zebrane z różnych źródeł. Dataset zawiera:

  • URL strony internetowej
  • HTML source code strony
  • Metadata (np. informacje WHOIS, third-party features)

Dane pochodzą z:

  • Google Search
  • Ebbu2017 Phishing Dataset
  • PhishTank
  • OpenPhish
  • PhishRepo

Dataset jest używany do trenowania i ewaluacji modeli machine learning/deep learning do wykrywania phishingu.

Zastosowania

  • Training klasyfikatorów phishing detection (ML, DL, LLM-based)
  • Benchmarking algorytmów wykrywania phishingu
  • Analiza charakterystyk stron phishingowych vs legitimate
  • Research w dziedzinie cybersecurity i web security
  • Testowanie URL-based, HTML-based i content-based detection methods

Używany w publikacjach

  • phishdebate-2025 - Performance benchmarking multi-agent LLM framework, sampel 500 phishing + 500 legitimate

Benchmarki

Model/SystemMetricScoreRokPublikacja
PhishDebate (GPT-4o)Accuracy96.50%2025PhishDebate
PhishDebate (GPT-4o)Precision94.97%2025PhishDebate
PhishDebate (GPT-4o)Recall98.2%2025PhishDebate
PhishDebate (GPT-4o)F1 Score96.56%2025PhishDebate

Uwagi

  • Dataset zawiera mixed sources, co zapewnia różnorodność phishing tactics
  • Idealny do balanced binary classification tasks
  • HTML source może wymagać preprocessingu (cleaning, feature extraction)
  • Metadata może zawierać third-party features (WHOIS, Alexa rank) - sprawdzić dostępność
  • Mendeley Data zapewnia persistent DOI dla reproducibility

Tagi

dataset phishing-detection cybersecurity web-security binary-classification html url-analysis