Pomysły badawcze

Ostatnia aktualizacja: 2026-05-12


🔥 Wysokie priorytety

[#FG-1] Graph-Based Fraud Detection Benchmark: Własna Implementacja GNN vs Published Results

Status: new Priorytet: high Dodano: 2026-04-28 Bazuje na: GAAP

Motywacja z GAAP (2025):

  • GAAP osiąga najlepsze wyniki na 7 zbiorach oszustw (YelpChi, Amazon, T-Finance, itp.)
  • Ale: architektura GAAP złożona (DyBEM, agregacja globalna, wzorce atrybutów)
  • Pytanie: Czy prostsze architektury GNN (GraphSAGE, GAT, GCN) mogą osiągnąć konkurencyjne wyniki?

Własne badanie:

  1. Zbiory danych (wszystkie publiczne):

    • YelpChi (publiczny benchmark)
    • Amazon Reviews (publiczny)
    • Można zapytać: T-Finance, T-Social, Elliptic (jeśli publiczne)
    • Wszystkie mają opublikowane podziały (trening/walidacja/test)
  2. Własne modele (prostsze niż GAAP, otwarte źródła):

    • GraphSAGE (PyTorch Geometric)
    • GAT (Graph Attention Networks)
    • GCN (Graph Convolutional Networks)
    • Prosty MLP bazowy (bez struktury grafowej)
  3. Porównanie z GAAP:

    • Odtwórz raportowane wyniki GAAP (waliduj benchmarki)
    • Czy prosty GNN osiąga 90-95% wydajności GAAP? (kompromis prostota-dokładność)
    • Ablacja: czy agregacja globalna (innowacja GAAP) naprawdę konieczna?

Wkład badawczy:

  • Analiza kompromisu prostota-dokładność (prosty GNN vs złożony GAAP)
  • Uczciwy benchmark (te same zbiory, te same podziały)
  • Praktyczne rekomendacje (kiedy prosty GNN wystarczy vs kiedy potrzeba złożonego GAAP)
  • Otwarte źródła: kod + tutorial (PyTorch Geometric)

Zbiory danych: YelpChi, Amazon (publiczne), T-Finance (zapytać jeśli dostępny)

Szacowany czas: 2-3 miesiące


[#FG-2] EDoG dla Feature Attacks: Rozszerzenie Detection Pipeline na Node Feature Perturbations

Status: new Priorytet: high Dodano: 2026-04-29 Bazuje na: EDoG Xu et al.

Gap w EDoG (2022):

  • EDoG wykrywa tylko structure attacks (dodawanie/usuwanie krawędzi) - nie feature attacks
  • Autorzy explicite zakładają: “node features są nie zmienione” (Section III-A)
  • Pytanie: Czy można rozszerzyć EDoG aby wykrywać combined attacks?

Proponowane badanie:

Rozszerzyć EDoG pipeline o component wykrywający feature attacks i zbadać performance przeciwko combined attacks (structure + feature simultaneously).

  1. Implementacja:

    • EDoG-Original: reprodukcja (AUC >0.8)
    • Feature Anomaly Detector (FAD): Isolation Forest + Autoencoder na node features
    • EDoG-Combined: LP + GGD + OD + FAD, multi-task scoring s_final = α·s_structure + β·s_feature
  2. Zbiory danych: Cora, Citeseer, syntetyczne (ER, BA)

    • Generate combined attacks: RL-S2V + gradient-based feature perturbation
  3. Hipoteza: EDoG-Combined osiągnie >0.85 AUC na combined attacks (vs <0.7 dla EDoG-original)

Wkład badawczy:

  • Pierwsza extension EDoG na feature attacks
  • Benchmark combined attacks (nowy threat model)
  • Multi-modal detection framework (graph structure + node features)

Zbiory danych: Cora, Citeseer (publiczne), syntetyczne ER/BA graphs


[#FG-3] Adaptive Attack Strategies przeciwko EDoG: Systematyczny Red Team Analysis

Status: new Priorytet: high Dodano: 2026-04-29 Bazuje na: EDoG Xu et al.

Gap w EDoG (2022):

  • Autorzy testują jedną adaptive attack strategy
  • Brak systematycznego eksplorowania różnych adaptive strategies
  • Pytanie: Jakie są najsilniejsze adaptive attacks przeciwko EDoG?

Proponowane badanie: 6 adaptive attack strategies (A1-A6):

  • A1: Low-Score Targeting (baseline z artykułu)
  • A2: Gradual Injection (nowy)
  • A3: Subgraph Targeting (nowy)
  • A4: OutlierDetect Evasion (nowy)
  • A5: Ensemble Confusion (nowy)
  • A6: Temporal Adaptive (nowy)

Wkład badawczy:

  • Pierwszy systematyczny red team EDoG
  • 6 novel adaptive attack strategies
  • Vulnerability analysis + countermeasures

Zbiory danych: Cora, Citeseer (publiczne)


Status: new Priorytet: high Dodano: 2026-04-28 Bazuje na: CMT Xu et al.

Gap w CMT (2024):

  • Proprietary dataset WeChat (6.8M węzłów) - nie da się odtworzyć
  • Pytanie: Czy soft links działają dla oszustw e-commerce (HTML/JS similarity)?

Własne badanie:

  1. Zebrać 5000+ stron e-commerce (2024-2026)
  2. Cechy: HTML structure, datalayer patterns, JavaScript behaviors
  3. Graf: hard links (IP/ASN) + soft links (cosine similarity HTML/JS > 0.7)
  4. Porównanie: hard vs soft vs hybrid links

Wkład badawczy:

  • Pierwszy transfer soft links z crowdsourcing fraud do e-commerce fraud
  • Publiczny zbiór danych (5000+ stron, HTML similarity graph)

Zbiory danych: Własny (5000+ stron e-commerce)


📌 Średnie priorytety

[#FG-5] Dynamic Feature Binning: Comparison Across Tabular Datasets

Status: new Priorytet: medium Dodano: 2026-04-28 Bazuje na: GAAP

Motywacja: DyBEM testowane tylko na zbiorach oszustw. Czy uogólnia się na klasyfikację tabelaryczną?

Własne badanie: DyBEM vs standardowe binowanie na 5-10 zbiorach UCI.

Wkład: Transferowalność DyBEM, implementacja open-source

Szacowany czas: 2 miesiące


[#FG-6] EDoG dla Dynamic Graphs: Temporal Extension Detection Pipeline

Status: new Priorytet: medium Dodano: 2026-04-29 Bazuje na: EDoG Xu et al.

Gap: EDoG działa na static graphs; realne grafy są dynamic (temporal).

Proponowane badanie: T-EDoG z temporal components (T-LinkPred, T-GraphGenDetect, T-OutlierDetect). Datasety: Elliptic Bitcoin (49 timesteps), DBLP, Reddit.

Wkład: Pierwsza temporal extension EDoG, temporal adversarial attack benchmark


[#FG-7] Contrastive Learning dla Fraud Detection z Ograniczonymi Etykietami

Status: new Priorytet: medium Dodano: 2026-04-28 Bazuje na: CMT Xu et al.

Gap: Brak porównania strategii contrastive learning (augmentacji) dla fraud detection.

Własne badanie: 6 strategii (reorder, substitute, edge mask, node mask, subgraph crop, no CL) na FinGraph, Elliptic, YelpChi z 0.1%-2% etykiet.

Wkład: Pierwszy systematyczny benchmark CL dla fraud detection


[#FG-8] Temporal Dynamics dla Cross-Domain Transfer: FinGraph → Elliptic → PhishTank

Status: new Priorytet: medium Dodano: 2026-04-28 Bazuje na: CMT Xu et al.

Hipoteza: Temporal patterns (ADD→PULL→TRANSFER→DISAPPEAR) mają analogie w phishingu (CREATE→DISTRIBUTE→HARVEST→VANISH).

Wkład: Pierwszy cross-domain transfer temporal dynamics, PhishTank temporal dataset


📊 Statystyki projektu