Can Large Language Models Detect Phishing Attacks?

Metadane

Autorzy: Seungjun Ji, Tae-Jin Kim
Rok: 2025
Źródło: arXiv preprint / under submission
DOI: arXiv:2506.XXXXX (TBC)
Status: to-read
Cytowania: ~0-5 (nowy)
Kategoria: Security / Natural Language Processing
Tagi: to-read phishing llm gpt4 gemini evaluation benchmark dataset visual-phishing rbpd

Streszczenie

Praca ewaluuje 7 dużych modeli językowych (LLM) — GPT-4.1, Gemini 2.5 Flash, Qwen-VL, LLaMA, DeepSeek, Claude — w zadaniu detekcji phishingu, porównując je z tradycyjnymi systemami wizualnego RBPD (PhishIntention, Phishpedia). Eksperyment przeprowadzony na 19,131 prawdziwych stron phishingowych + 243 legalnych stron — jeden z największych publicznych zbiorów do ewaluacji.

Wyniki pokazują że LLM-y osiągają zaskakująco dobre wyniki dla zbalansowanych zbiorów, ale mają wysoką stopę false positive dla stron legalnych (nadmierny alarm). PhishIntention i Phishpedia pozostają lepsze pod względem precision. Praca dostarcza unikalnego datasetu 19k+ phishing + 243 benign do benchmarkingu.

Kluczowe Wnioski

Dataset: 19,131 phishing + 243 benign stron internetowych (screenshoty + HTML + URL) — publicznie dostępny
GPT-4.1 osiąga ~89% recall ale ~45% precision (dużo false positives)
PhishIntention: ~75% recall, ~98% precision (lepszy balans)
LLM-y nie zastępują specjalizowanych systemów, ale mogą być komplementarne
Wyniki silnie zależą od promptu (prompt sensitivity)

Metodologia

Dataset collection: rzeczywiste phishing URLs z PhishTank + OpenPhish, screenshoty w czasie T=0 i T+5min
Modele: GPT-4.1, Gemini 2.5 Flash, Qwen-VL-Max, LLaMA-3.2-Vision, DeepSeek-VL2, Claude-3.5-Sonnet
Porównanie: PhishIntention (USENIX 2022), Phishpedia (USENIX 2021)
Metryki: recall, precision, F1, FPR na niezbalansowanym zbiorze (79:1 ratio)

Główne Koncepcje

LLM-based zero-shot phishing detection: bez fine-tuningu, prompting only
Zbalansowanie dataset: 79:1 imbalance (phishing:legit) — realistyczny warunek
Multimodal phishing evaluation: screenshot + URL jako wejście dla VLM

Wyniki

Model	Recall	Precision	F1
GPT-4.1	~89%	~45%	~60%
Gemini 2.5 Flash	~85%	~50%	~63%
PhishIntention	~75%	~98%	~85%
Phishpedia	~70%	~97%	~81%

(Przybliżone wartości z dostępnego streszczenia — weryfikować po pełnym przeczytaniu)

Przydatne Cytaty

“LLMs show promising recall but suffer from high false positive rates, indicating they are not yet suitable as standalone phishing detectors”
“The 19,131-site dataset provides a realistic evaluation setting with 79:1 class imbalance”

Datasety

Dataset z tej pracy — 19,131 phishing + 243 benign stron — jest publiczny i nadaje się do walidacji własnego systemu:

Screenshoty, HTML, URL dostępne
Oznakowanie: phishing/benign
Rozkład marek: zróżnicowany (finanse, e-commerce, social media)
Kontakt: seungjun.ji@[university] (TBC)

Powiązane Tematy

Benchmark vs PhishIntention i Phishpedia
KnowPhish 2024 — bardziej zaawansowany RBPD (nie testowany w tej pracy)
Yuan 2026 delayed rendering — LLM-y mogą być wrażliwe podobnie
LogoSENSE (Bozkir 2020) — alternatywny logo detection dataset

Notatki

Kluczowy dataset do walidacji naszego systemu: 19k+ phishing z realistycznym imbalance. Pobierz dataset jeśli dostępny publicznie — szukaj linku w arxiv/github.

Research

Przeglądaj

Can Large Language Models Detect Phishing Attacks?

Can Large Language Models Detect Phishing Attacks?

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Główne Koncepcje

Wyniki

Przydatne Cytaty

Datasety

Powiązane Tematy

Notatki