Deep Residual Learning for Image Recognition (ResNet)
Metadane
- Autorzy: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
- Rok: 2016
- Źródło: CVPR 2016
- DOI: 10.1109/CVPR.2016.90
- Status: reference
- Cytowania: ~200,000
- Kategoria: Computer Vision / Deep Learning
- Tagi: reference resnet cnn backbone deep-learning cvpr foundational high-citations
Streszczenie
ResNet wprowadza residual connections (skip connections) eliminujące problem zanikającego gradientu w głębokich sieciach. Architektura: bloki F(x) + x zamiast F(x). Umożliwia trenowanie sieci 50, 101, 152 warstw. ResNet-50 = standard backbone dla większości vision tasks.
W kontekście phishing detection: ResNet-50 używany przez PhishIntention (Liu 2022) i VisualPhishNet (Abdelnabi 2020) jako logo embedding backbone. Nasz system albo używa ResNet-50 jako baseline, albo zastępuje go ViT/CLIP dla lepszej adversarial robustności.
Kluczowe Wnioski
- Residual block: output = F(x, {Wi}) + x (shortcut connection)
- ResNet-50: 25.5M parametrów, 76.1% top-1 ImageNet → standard benchmark
- 200k+ cytowań = najczęściej cytowana praca w computer vision
- Warianty: ResNet-18/34 (lżejsze), ResNet-50/101/152 (cięższe), ResNeXt (szersze)
- Nadal używany jako backbone w Faster R-CNN, FPN, Mask R-CNN
Zastosowanie w projekcie
Baseline backbone dla logo embedding (M2b):
- ResNet-50 pretrained (ImageNet) + fine-tuned (triplet loss, LogoSENSE)
- Punkt porównania: nasz ViT/CLIP vs ResNet-50 baseline
- PhishIntention używa ResNet-50 → bezpośrednia comparability z baseline
Uzasadnienie przejścia na ViT: ResNet lokalny receptive field → podatny na lokalne perturbacje (GAN logos atakują lokalne textury). ViT globalny attention → odporniejszy. To jest jedna z tez do udowodnienia eksperymentalnie.
Notatki
Cytowanie obowiązkowe — używany przez wszystkie RBPD systemy z którymi się porównujemy. 200k cytowań = nie wymaga opisu, wystarczy (He et al., 2016).