Deep Residual Learning for Image Recognition (ResNet)

Metadane

Streszczenie

ResNet wprowadza residual connections (skip connections) eliminujące problem zanikającego gradientu w głębokich sieciach. Architektura: bloki F(x) + x zamiast F(x). Umożliwia trenowanie sieci 50, 101, 152 warstw. ResNet-50 = standard backbone dla większości vision tasks.

W kontekście phishing detection: ResNet-50 używany przez PhishIntention (Liu 2022) i VisualPhishNet (Abdelnabi 2020) jako logo embedding backbone. Nasz system albo używa ResNet-50 jako baseline, albo zastępuje go ViT/CLIP dla lepszej adversarial robustności.

Kluczowe Wnioski

  • Residual block: output = F(x, {Wi}) + x (shortcut connection)
  • ResNet-50: 25.5M parametrów, 76.1% top-1 ImageNet → standard benchmark
  • 200k+ cytowań = najczęściej cytowana praca w computer vision
  • Warianty: ResNet-18/34 (lżejsze), ResNet-50/101/152 (cięższe), ResNeXt (szersze)
  • Nadal używany jako backbone w Faster R-CNN, FPN, Mask R-CNN

Zastosowanie w projekcie

Baseline backbone dla logo embedding (M2b):

  • ResNet-50 pretrained (ImageNet) + fine-tuned (triplet loss, LogoSENSE)
  • Punkt porównania: nasz ViT/CLIP vs ResNet-50 baseline
  • PhishIntention używa ResNet-50 → bezpośrednia comparability z baseline

Uzasadnienie przejścia na ViT: ResNet lokalny receptive field → podatny na lokalne perturbacje (GAN logos atakują lokalne textury). ViT globalny attention → odporniejszy. To jest jedna z tez do udowodnienia eksperymentalnie.

Notatki

Cytowanie obowiązkowe — używany przez wszystkie RBPD systemy z którymi się porównujemy. 200k cytowań = nie wymaga opisu, wystarczy (He et al., 2016).

Elementów w folderze: 0.