Can Large Language Models Detect Phishing Attacks?
Metadane
- Autorzy: Seungjun Ji, Tae-Jin Kim
- Rok: 2025
- Źródło: arXiv preprint / under submission
- DOI: arXiv:2506.XXXXX (TBC)
- Status: to-read
- Cytowania: ~0-5 (nowy)
- Kategoria: Security / Natural Language Processing
- Tagi: to-read phishing llm gpt4 gemini evaluation benchmark dataset visual-phishing rbpd
Streszczenie
Praca ewaluuje 7 dużych modeli językowych (LLM) — GPT-4.1, Gemini 2.5 Flash, Qwen-VL, LLaMA, DeepSeek, Claude — w zadaniu detekcji phishingu, porównując je z tradycyjnymi systemami wizualnego RBPD (PhishIntention, Phishpedia). Eksperyment przeprowadzony na 19,131 prawdziwych stron phishingowych + 243 legalnych stron — jeden z największych publicznych zbiorów do ewaluacji.
Wyniki pokazują że LLM-y osiągają zaskakująco dobre wyniki dla zbalansowanych zbiorów, ale mają wysoką stopę false positive dla stron legalnych (nadmierny alarm). PhishIntention i Phishpedia pozostają lepsze pod względem precision. Praca dostarcza unikalnego datasetu 19k+ phishing + 243 benign do benchmarkingu.
Kluczowe Wnioski
- Dataset: 19,131 phishing + 243 benign stron internetowych (screenshoty + HTML + URL) — publicznie dostępny
- GPT-4.1 osiąga ~89% recall ale ~45% precision (dużo false positives)
- PhishIntention: ~75% recall, ~98% precision (lepszy balans)
- LLM-y nie zastępują specjalizowanych systemów, ale mogą być komplementarne
- Wyniki silnie zależą od promptu (prompt sensitivity)
Metodologia
- Dataset collection: rzeczywiste phishing URLs z PhishTank + OpenPhish, screenshoty w czasie T=0 i T+5min
- Modele: GPT-4.1, Gemini 2.5 Flash, Qwen-VL-Max, LLaMA-3.2-Vision, DeepSeek-VL2, Claude-3.5-Sonnet
- Porównanie: PhishIntention (USENIX 2022), Phishpedia (USENIX 2021)
- Metryki: recall, precision, F1, FPR na niezbalansowanym zbiorze (79:1 ratio)
Główne Koncepcje
- LLM-based zero-shot phishing detection: bez fine-tuningu, prompting only
- Zbalansowanie dataset: 79:1 imbalance (phishing:legit) — realistyczny warunek
- Multimodal phishing evaluation: screenshot + URL jako wejście dla VLM
Wyniki
| Model | Recall | Precision | F1 |
|---|---|---|---|
| GPT-4.1 | ~89% | ~45% | ~60% |
| Gemini 2.5 Flash | ~85% | ~50% | ~63% |
| PhishIntention | ~75% | ~98% | ~85% |
| Phishpedia | ~70% | ~97% | ~81% |
(Przybliżone wartości z dostępnego streszczenia — weryfikować po pełnym przeczytaniu)
Przydatne Cytaty
- “LLMs show promising recall but suffer from high false positive rates, indicating they are not yet suitable as standalone phishing detectors”
- “The 19,131-site dataset provides a realistic evaluation setting with 79:1 class imbalance”
Datasety
Dataset z tej pracy — 19,131 phishing + 243 benign stron — jest publiczny i nadaje się do walidacji własnego systemu:
- Screenshoty, HTML, URL dostępne
- Oznakowanie: phishing/benign
- Rozkład marek: zróżnicowany (finanse, e-commerce, social media)
- Kontakt: seungjun.ji@[university] (TBC)
Powiązane Tematy
- Benchmark vs PhishIntention i Phishpedia
- KnowPhish 2024 — bardziej zaawansowany RBPD (nie testowany w tej pracy)
- Yuan 2026 delayed rendering — LLM-y mogą być wrażliwe podobnie
- LogoSENSE (Bozkir 2020) — alternatywny logo detection dataset
Notatki
Kluczowy dataset do walidacji naszego systemu: 19k+ phishing z realistycznym imbalance. Pobierz dataset jeśli dostępny publicznie — szukaj linku w arxiv/github.