Personalized Phishing Simulation — RCT & Ethics Framework

Kontekst i motywacja

Literatura (Rozema & Davis 2025, N=12,511; Ho et al. 2025, N=19,500) wykazała, że standardowy embedded phishing training nie działa lub nawet pogarsza wyniki przy powtórzeniu. Pytanie badawcze przestało brzmieć “czy training działa” — recenzent odrzuci tę hipotezę jako obalony strawman. Nowe pytanie: “ile personalizacji wystarczy, żeby efekt uczenia był mierzalny, i jak to zrobić etycznie?”

Pytania badawcze

Jaki minimalny poziom personalizacji symulowanego phishingu (P0/P25/P50/P100, zgodnie z taksonomią z projektu SP) jest konieczny, żeby efekt uczenia był istotny statystycznie przy ponownej kampanii?
Czy efekt uczenia utrzymuje się po 3-6 miesiącach, i czy jest on funkcją stopnia personalizacji czy stopnia “zaskoczenia” ofiary (post-hoc self-reported surprise score)?
Jakie elementy procedury IRB są konieczne i wystarczające, żeby kampania symulacyjna oparta na LLM była akceptowalna etycznie i jednocześnie nie eliminowała efektu zaskoczenia niezbędnego do uczenia?

Kluczowe hipotezy

H1: Efekt uczenia (Δclick-rate między kampanią 1 a follow-up) jest istotnie wyższy dla grup z personalizacją P50 i P100 niż dla P0 (GoPhish generic) — nawet jeśli absolutny click-rate P100 nie różni się istotnie od P0. Hipoteza nie zakłada, że training “działa” absolutnie; zakłada że personalizacja moduluje efekt uczenia.
H2: Self-reported surprise score (SRS, ankieta post-click) mediuje zależność między personalizacją a efektem uczenia (Baron & Kenny mediation test). Wyższy SRS → większa zmiana zachowania przy follow-up.
H3: Procedura IRB oparta na “delayed disclosure” (ujawnienie celu badania po kampanii, nie przed) jest operacyjnie wykonalna i etycznie dopuszczalna zgodnie z Menlo Report i GDPR Art. 6(1)(e) (interes publiczny badań).

Metodologia

Design eksperymentalny (niezależny od projektu SP)

4 grupy losowo przypisane: P0 (GoPhish generic), P25 (imię + rola), P50 (P25 + projekt/firma), P100 (P50 + ostatnia publiczna aktywność z LinkedIn/GitHub)
Personalizacja P25–P100 wykonana ręcznie przez research assistant (nie wymaga crawlera z projektu SP) — to eliminuje zależność technologiczną
LLM (GPT-4) używany jako narzędzie do drafting emaili, nie jako autonomiczny system OSINT
N na grupę: min. 100 pracowników (power analysis: α=0.05, β=0.2, oczekiwany efekt d=0.3)

Przebieg kampanii

T0: Kampania 1 (4 grupy, randomizacja)
T0+immediate: Ankieta post-click (SRS + perceived realism score)
T0+1tydzień: Debriefing wszystkich uczestników, ujawnienie celu badania
T0+3-6 miesięcy: Kampania follow-up (ta sama personalizacja), pomiar retencji

Metryki

Pierwotna: Δclick-rate (T0 → follow-up) per grupa
Wtórna: report-rate (pracownik zgłosił email do IT), SRS, perceived realism
Moderatory: rola (tech vs. non-tech), staż, dział

Framework etyczny (wkład publikowalny)

Analiza porównawcza: Menlo Report, APA Ethics Code §8.07 (deception in research), GDPR Art. 6(1)(e), AI Act Annex III (high-risk classification)
Template procedury IRB dostosowany do kampanii symulacyjnych w organizacjach europejskich
Decision tree: kiedy “delayed disclosure” jest etycznie dopuszczalne vs. kiedy wymagany jest pełny upfront consent (i jak to wpływa na design badania)

Datasety / dane eksperymentalne

Wyniki własnej kampanii (organizacja partnerska — NASK lub firma prywatna)
Nie wymaga zewnętrznych datasetów phishingowych
Porównanie z: Rozema & Davis (2025), Ho et al. (2025) — dane z literatury jako external benchmark

Wkład naukowy

Empiryczny: pierwsza RCT porównująca 4 poziomy personalizacji z pomiarem retencji (3-6 miesięcy); odpowiedź na luki zidentyfikowane w Ho et al. (2025)
Metodologiczny: formalna operacjonalizacja SRS jako mediatora; design umożliwiający replikację
Normatywny: framework etyczny jako publikowalny artefakt, nie tylko aneks metodyczny

Venue docelowe

Full paper: USENIX Security (SOUPS track), CHI, ACM CCS
Ethics framework: IEEE Security & Privacy Magazine, CPDP, Computers & Security
Nie: IEEE S&P main track (zbyt mało technicznie)

Niezależność od innych projektów

Projekt nie wymaga systemu OSINT z SP (#SP-2). Personalizacja jest wykonywana ręcznie przez research assistant na podstawie publicznych profili. Wyniki click-rate mogą opcjonalnie zasilić walidację APS z projektu SP, ale SP nie jest prerequisitem.

Prefix ID

#PSE-

Research

Przeglądaj

Personalized Phishing Simulation — RCT & Ethics Framework

Personalized Phishing Simulation — RCT & Ethics Framework

Kontekst i motywacja

Pytania badawcze

Kluczowe hipotezy

Metodologia

Design eksperymentalny (niezależny od projektu SP)

Przebieg kampanii

Metryki

Framework etyczny (wkład publikowalny)

Datasety / dane eksperymentalne

Wkład naukowy

Venue docelowe

Niezależność od innych projektów

Prefix ID

Architektura i Eksperymenty

Notatki robocze

Pomysły badawcze

Bibliografia