Can Large Language Models Detect Phishing Attacks?

Metadane

Streszczenie

Praca ewaluuje 7 dużych modeli językowych (LLM) — GPT-4.1, Gemini 2.5 Flash, Qwen-VL, LLaMA, DeepSeek, Claude — w zadaniu detekcji phishingu, porównując je z tradycyjnymi systemami wizualnego RBPD (PhishIntention, Phishpedia). Eksperyment przeprowadzony na 19,131 prawdziwych stron phishingowych + 243 legalnych stron — jeden z największych publicznych zbiorów do ewaluacji.

Wyniki pokazują że LLM-y osiągają zaskakująco dobre wyniki dla zbalansowanych zbiorów, ale mają wysoką stopę false positive dla stron legalnych (nadmierny alarm). PhishIntention i Phishpedia pozostają lepsze pod względem precision. Praca dostarcza unikalnego datasetu 19k+ phishing + 243 benign do benchmarkingu.

Kluczowe Wnioski

  • Dataset: 19,131 phishing + 243 benign stron internetowych (screenshoty + HTML + URL) — publicznie dostępny
  • GPT-4.1 osiąga ~89% recall ale ~45% precision (dużo false positives)
  • PhishIntention: ~75% recall, ~98% precision (lepszy balans)
  • LLM-y nie zastępują specjalizowanych systemów, ale mogą być komplementarne
  • Wyniki silnie zależą od promptu (prompt sensitivity)

Metodologia

  • Dataset collection: rzeczywiste phishing URLs z PhishTank + OpenPhish, screenshoty w czasie T=0 i T+5min
  • Modele: GPT-4.1, Gemini 2.5 Flash, Qwen-VL-Max, LLaMA-3.2-Vision, DeepSeek-VL2, Claude-3.5-Sonnet
  • Porównanie: PhishIntention (USENIX 2022), Phishpedia (USENIX 2021)
  • Metryki: recall, precision, F1, FPR na niezbalansowanym zbiorze (79:1 ratio)

Główne Koncepcje

  • LLM-based zero-shot phishing detection: bez fine-tuningu, prompting only
  • Zbalansowanie dataset: 79:1 imbalance (phishing:legit) — realistyczny warunek
  • Multimodal phishing evaluation: screenshot + URL jako wejście dla VLM

Wyniki

ModelRecallPrecisionF1
GPT-4.1~89%~45%~60%
Gemini 2.5 Flash~85%~50%~63%
PhishIntention~75%~98%~85%
Phishpedia~70%~97%~81%

(Przybliżone wartości z dostępnego streszczenia — weryfikować po pełnym przeczytaniu)

Przydatne Cytaty

  • “LLMs show promising recall but suffer from high false positive rates, indicating they are not yet suitable as standalone phishing detectors”
  • “The 19,131-site dataset provides a realistic evaluation setting with 79:1 class imbalance”

Datasety

Dataset z tej pracy — 19,131 phishing + 243 benign stron — jest publiczny i nadaje się do walidacji własnego systemu:

  • Screenshoty, HTML, URL dostępne
  • Oznakowanie: phishing/benign
  • Rozkład marek: zróżnicowany (finanse, e-commerce, social media)
  • Kontakt: seungjun.ji@[university] (TBC)

Powiązane Tematy

  • Benchmark vs PhishIntention i Phishpedia
  • KnowPhish 2024 — bardziej zaawansowany RBPD (nie testowany w tej pracy)
  • Yuan 2026 delayed rendering — LLM-y mogą być wrażliwe podobnie
  • LogoSENSE (Bozkir 2020) — alternatywny logo detection dataset

Notatki

Kluczowy dataset do walidacji naszego systemu: 19k+ phishing z realistycznym imbalance. Pobierz dataset jeśli dostępny publicznie — szukaj linku w arxiv/github.

Elementów w folderze: 0.