Personalized Phishing Simulation — RCT & Ethics Framework

Kontekst i motywacja

Literatura (Rozema & Davis 2025, N=12,511; Ho et al. 2025, N=19,500) wykazała, że standardowy embedded phishing training nie działa lub nawet pogarsza wyniki przy powtórzeniu. Pytanie badawcze przestało brzmieć “czy training działa” — recenzent odrzuci tę hipotezę jako obalony strawman. Nowe pytanie: “ile personalizacji wystarczy, żeby efekt uczenia był mierzalny, i jak to zrobić etycznie?”

Pytania badawcze

  1. Jaki minimalny poziom personalizacji symulowanego phishingu (P0/P25/P50/P100, zgodnie z taksonomią z projektu SP) jest konieczny, żeby efekt uczenia był istotny statystycznie przy ponownej kampanii?
  2. Czy efekt uczenia utrzymuje się po 3-6 miesiącach, i czy jest on funkcją stopnia personalizacji czy stopnia “zaskoczenia” ofiary (post-hoc self-reported surprise score)?
  3. Jakie elementy procedury IRB są konieczne i wystarczające, żeby kampania symulacyjna oparta na LLM była akceptowalna etycznie i jednocześnie nie eliminowała efektu zaskoczenia niezbędnego do uczenia?

Kluczowe hipotezy

  • H1: Efekt uczenia (Δclick-rate między kampanią 1 a follow-up) jest istotnie wyższy dla grup z personalizacją P50 i P100 niż dla P0 (GoPhish generic) — nawet jeśli absolutny click-rate P100 nie różni się istotnie od P0. Hipoteza nie zakłada, że training “działa” absolutnie; zakłada że personalizacja moduluje efekt uczenia.
  • H2: Self-reported surprise score (SRS, ankieta post-click) mediuje zależność między personalizacją a efektem uczenia (Baron & Kenny mediation test). Wyższy SRS → większa zmiana zachowania przy follow-up.
  • H3: Procedura IRB oparta na “delayed disclosure” (ujawnienie celu badania po kampanii, nie przed) jest operacyjnie wykonalna i etycznie dopuszczalna zgodnie z Menlo Report i GDPR Art. 6(1)(e) (interes publiczny badań).

Metodologia

Design eksperymentalny (niezależny od projektu SP)

  • 4 grupy losowo przypisane: P0 (GoPhish generic), P25 (imię + rola), P50 (P25 + projekt/firma), P100 (P50 + ostatnia publiczna aktywność z LinkedIn/GitHub)
  • Personalizacja P25–P100 wykonana ręcznie przez research assistant (nie wymaga crawlera z projektu SP) — to eliminuje zależność technologiczną
  • LLM (GPT-4) używany jako narzędzie do drafting emaili, nie jako autonomiczny system OSINT
  • N na grupę: min. 100 pracowników (power analysis: α=0.05, β=0.2, oczekiwany efekt d=0.3)

Przebieg kampanii

  • T0: Kampania 1 (4 grupy, randomizacja)
  • T0+immediate: Ankieta post-click (SRS + perceived realism score)
  • T0+1tydzień: Debriefing wszystkich uczestników, ujawnienie celu badania
  • T0+3-6 miesięcy: Kampania follow-up (ta sama personalizacja), pomiar retencji

Metryki

  • Pierwotna: Δclick-rate (T0 → follow-up) per grupa
  • Wtórna: report-rate (pracownik zgłosił email do IT), SRS, perceived realism
  • Moderatory: rola (tech vs. non-tech), staż, dział

Framework etyczny (wkład publikowalny)

  • Analiza porównawcza: Menlo Report, APA Ethics Code §8.07 (deception in research), GDPR Art. 6(1)(e), AI Act Annex III (high-risk classification)
  • Template procedury IRB dostosowany do kampanii symulacyjnych w organizacjach europejskich
  • Decision tree: kiedy “delayed disclosure” jest etycznie dopuszczalne vs. kiedy wymagany jest pełny upfront consent (i jak to wpływa na design badania)

Datasety / dane eksperymentalne

  • Wyniki własnej kampanii (organizacja partnerska — NASK lub firma prywatna)
  • Nie wymaga zewnętrznych datasetów phishingowych
  • Porównanie z: Rozema & Davis (2025), Ho et al. (2025) — dane z literatury jako external benchmark

Wkład naukowy

  • Empiryczny: pierwsza RCT porównująca 4 poziomy personalizacji z pomiarem retencji (3-6 miesięcy); odpowiedź na luki zidentyfikowane w Ho et al. (2025)
  • Metodologiczny: formalna operacjonalizacja SRS jako mediatora; design umożliwiający replikację
  • Normatywny: framework etyczny jako publikowalny artefakt, nie tylko aneks metodyczny

Venue docelowe

Niezależność od innych projektów

Projekt nie wymaga systemu OSINT z SP (#SP-2). Personalizacja jest wykonywana ręcznie przez research assistant na podstawie publicznych profili. Wyniki click-rate mogą opcjonalnie zasilić walidację APS z projektu SP, ale SP nie jest prerequisitem.

Prefix ID

#PSE-