Pomysły badawcze

High Priority

SP-1 Personalization gradient study: jak stopień kontekstu wpływa na wykrywalność spear phishingu

Hipoteza: Klasyfikatory content-only i LLM-only wykazują monotonicznie rosnący error rate wraz ze wzrostem stopnia personalizacji emaila — mierzonym jako liczba cech kontekstowych użytych przez red-team LLM (P0/P25/P50/P100). Zależność jest istotna statystycznie (α=0.05) i monotonична.

Metodologia:

  • 4 poziomy personalizacji: P0 (brak cech), P25 (imię + rola), P50 (P25 + firma + projekt), P100 (P50 + ostatnia aktywność z LinkedIn/GitHub)
  • Profile OSINT: min. 200 publicznych profili z LinkedIna, GitHuba, Sessionize (crawlowanie zgodne z ToS)
  • N emaili: 200 profili × 4 poziomy × 5 emaili = 4000 emaili (red-team LLM: GPT-4)
  • Klasyfikatory: RoBERTa fine-tuned, LightGBM (TF-IDF), GPT-4o zero-shot detection
  • Walidacja: human annotators (MTurk) jako oracle — czy ludzie też są bardziej podatni przy P100?
  • Testy: permutation test per poziom personalizacji; ANOVA dla trendu

Wkład: Formalna kwantyfikacja “personalization cost” dla atakującego i “detection cost” dla obrońcy; dataset publiczny i reprodukowalny bez internal telemetry

Venue docelowe: USENIX Security, IEEE S&P, ACM CCS


SP-2 Attack Predictability Score (APS): formalna metryka epistemic attack surface

Hipoteza: APS(u) = Σ w_i · (1 - H_i(u)), gdzie H_i to entropia atrybutu i dla użytkownika u z danych OSINT, koreluje (Spearman ρ > 0.4) z empirycznym error rate klasyfikatora przy 100% personalizacji (P100). Wagi w_i estymowane regresją liniową.

Metodologia:

  • Crawler: LinkedIn (profil, posty, komentarze), GitHub (repozytoria, commits, bio), Sessionize/Sched (prelekcje), HIBP (naruszenia)
  • Obliczenie APS per profil (N=200 z SP-1)
  • Regresja: APS → error rate klasyfikatora przy P100
  • Ablation źródeł OSINT: które źródło ma najwyższy β w regresji?
  • Walidacja krzyżowa: czy APS przewiduje error rate na held-out zbiorze?

Wkład: Pierwsza sformalizowana metryka “epistemic attack surface” dla pracownika; mapa najbardziej eksploracyjnych źródeł OSINT per typ ataku

Venue docelowe: CCS, ESORICS, WSDM


Medium Priority

SP-3 Source ablation: które źródło OSINT daje największy wzrost APS?

Ablation study na poziomie źródeł: LinkedIn only vs. GitHub only vs. Sessionize vs. kombinacje. Wynik: ranking źródeł wg informatywności dla atakującego. Praktyczne zastosowanie: rekomendacje dla polityki prywatności pracowników (co warto usunąć z publicznego dostępu).

SP-4 Human vs. LLM detection: czy ludzie są bardziej odporni na P100 niż klasyfikatory?

Porównanie human annotators (MTurk) z automatic classifiers przy każdym poziomie personalizacji. Hipoteza: klasyfikatory degradują szybciej niż ludzie przy P50→P100, bo ludzie używają pragmatic context którego modele nie mają.

SP-5 Adversarial robustness klasyfikatora: paraphrasing attack na spear phishe

Czy prosty paraphrasing (zmiana słów przy zachowaniu sensu) wystarczy żeby ominąć fine-tuned RoBERTa? Jeśli tak — klasyfikator nie jest deployable. Wynik: rekomendacje dla architectury robustness.

Low Priority

SP-6 Cross-lingual generalization

Czy model wytrenowany na angielskich emailach działa na polskich/niemieckich? Problem: większość datasetów jest angielska, ale realne kampanie są wielojęzyczne.

SP-7 Prompted Contextual Vectors z automatycznym generowaniem pytań

Źródło: nahmias-contextual-vectors-spear-phishing-2024

Hipoteza: Ręczne projektowanie pytań dla PCV jest czasochłonne i suboptymalne. Możliwe jest automatyczne generowanie zestawu pytań (np. przez LLM na podstawie przykładów phishingu) osiągające lepsze lub równe wyniki przy mniejszym wysiłku eksperckim.

Metodologia:

  • Zbiór wyjściowy: PCV Nahmias et al. jako baseline (F1=0.91)
  • Auto-generowanie pytań: LLM (GPT-4) generuje N pytań na podstawie opisu zadania i przykładów
  • Optymalizacja pytań: algorytm greedy lub ewolucyjny selekcji pytań wg F1 na zbiorze walidacyjnym
  • Porównanie: ręczne pytania vs auto-generowane w scenariuszu concept drift (spear-phishing w teście, tradycyjny phishing w treningu)

Powiązanie z projektem: Rozszerzenie metody PCV dla kontekstu OSINT-personalized spear-phishingu (#SP-1 dataset)

Venue docelowe: USENIX Security, CCS, ESORICS


SP-11 Prompt injection robustness LLM-based spear phishing detectors: czy personalizacja zwiększa podatność?

Źródło: hasan-llm-phishing-detection-2025

Hipoteza: LLM-based klasyfikatory spear phishingu (za Nahmias 2024) są bardziej podatne na prompt injection ataki gdy email jest wysoko spersonalizowany (P100 z SP-1) niż gdy jest generyczny (P0) — ponieważ spersonalizowany kontekst utrudnia LLM rozróżnienie między legalnym kontekstem a wstrzykniętymi instrukcjami.

Metodologia:

  • Bazowy detektor: LLM-PEA (GPT-4o/Claude Sonnet 4) z CoT prompting
  • Zbiór testowy: emaile z 4 poziomów personalizacji (#SP-1: P0/P25/P50/P100) z dodanymi prompt injection templates (6 z LLM-PEA)
  • Metryki: ASR (Attack Success Rate) per poziom personalizacji per model per injection type
  • Analiza: czy kombinacja [wysoka personalizacja + authority exploitation] daje synergiczne ASR?
  • Hipoteza pomocnicza: emaile P100 z authority impersonation mają najwyższy ASR

Wkład: Empiryczna walidacja compound vulnerability dla spear phishing: personalizacja OSINT + prompt injection jako nowy wektor ataku; rekomendacje dla hardeningu LLM-based detektorów targeted attacks

Venue docelowe: USENIX Security, IEEE S&P, ACM CCS


SP-10 Stylometric fingerprinting AI-generated spear phishing: transfer na personalizowane emaile

Źródło: eze-ai-phishing-prevention-2024

Hipoteza: Cechy stylistyczne identyfikujące AI-generated phishing (dłuższe słowa, więcej czasowników/zaimków, wyższa dywersyfikacja leksykalna, krótsze zdania, pozytywny sentyment) zachowują moc dyskryminacyjną również dla AI-generated spear phishing (personalizowanych emaili z OSINT) — co umożliwia detekcję nawet bez dostępu do treści kontekstowej.

Metodologia:

  • Zbiór bazowy: 865 emaili z Eze & Shamir + dataset SP z Nahmias 2024 (333 emaile)
  • Ekstrakcja 297 cech UDAT + dodatkowe cechy LLM-specific (perplexity, burstiness)
  • Porównanie cech stylistycznych: generic AI phishing vs. personalized spear phishing (P0/P25/P50/P100 z SP-1)
  • Klasyfikator stylometryczny (UDAT/Fisher-kNN) vs. treściowy (RoBERTa fine-tuned)
  • Analiza: czy personalizacja “zamazuje” sygnaturę stylistyczną AI?

Wkład: Walidacja hipotezy, że stylometria jest komplementarna do topic-based detection; identyfikacja które cechy stylometryczne degradują przy rosnącym poziomie personalizacji

Venue docelowe: USENIX Security, ACM CCS, IEEE S&P


SP-8 Taksonomia celów ataku jako feature dla klasyfikatora targeted attacks

Źródło: wassermann-targeted-attacks-spear-phishing-2023

Hipoteza: Klasyfikator targetowanych ataków email (SP/BEC) osiąga istotnie wyższy F1 gdy jako dodatkowe cechy uwzględnia kategorię celu ataku (GC1: credential, GC2: financial fraud, GC3: info theft, GC4: malware) wykrytą przez osobny klasyfikator intent. Multi-task learning (detekcja + klasyfikacja celu) outperformuje single-task binary classifier.

Metodologia:

  • Zbiór danych: PrivatePhish, PhishTank + publiczne datasety BEC z anotacjami
  • Etap 1: fine-tuned LLM (RoBERTa) jako intent classifier → GC1-GC4
  • Etap 2: intent label jako feature w binary classifier (targeted vs. benign)
  • Porównanie: single-task vs. multi-task vs. cascade (intent → binary)
  • Analiza błędów: które typy ataków (CEO fraud, W-2, gift card) są najtrudniejsze?

Wkład: Formalna walidacja hipotezy Wassermann et al., że taksonomia celów powinna być używana w detekcji; publiczny benchmark z anotacjami GC1-GC4

Venue docelowe: IEEE S&P, USENIX Security, ACM CCS


SP-9 Unified benchmark dataset dla targeted attacks (SP + BEC)

Źródło: wassermann-targeted-attacks-spear-phishing-2023

Hipoteza: Brak ujednoliconego datasetu i benchmarku jest główną przyczyną niemożności porównywania metod detekcji targeted attacks. Możliwe jest stworzenie syntetycznego benchmarku (LLM-generated + real-world) z anotacjami taksonomicznymi (GC1-GC4, typologia: CEO fraud/W-2/gift card), który stanie się standardem porównawczym.

Metodologia:

  • Pobranie dostępnych publicznych datasetów phishingu (PrivatePhish, Enron+injected)
  • Anotacja manualna + LLM-assisted dla celów GC1-GC4 i typów ataków
  • Generowanie syntetycznych przykładów każdego typu przez GPT-4 (controlled diversity)
  • Ewaluacja kilku SOTA metod (PCV Nahmias, BEC-Guard Cidon, EmailProfiler Duman) na benchmarku
  • Publikacja benchmarku i kodu jako open source

Wkład: Pierwszy publiczny benchmark targeted attacks z wielopoziomowymi anotacjami; umożliwia obiektywne porównanie metod z literatury

Venue docelowe: NeurIPS Datasets & Benchmarks Track, ACM CCS, USENIX Security


Archiwum

SP-1 (stara wersja) Context-aware spear phishing classifier z workplace telemetry

Przeniesione do archiwum: hipoteza wymagała dostępu do internal telemetry (Jira, Git) ofiary, co tworzyło circular data leakage — LLM generował atak wiedząc o kontekście, classifier uczył się na tych samych cechach. Zastąpione przez controlled personalization gradient study (#SP-1 nowa wersja) oparty wyłącznie na publicznych danych OSINT.