ShamFinder: An Automated Framework for Detecting IDN Homographs
Metadane
- Autorzy: Hiroaki Suzuki, Daiki Chiba, Yoshiro Yoneya, Tatsuya Mori, Shigeki Goto
- Rok: 2019
- Źródło: arXiv 1909.07539 (konferencja IMC 2019)
- DOI: arXiv:1909.07539
- Status: to-read
- Cytowania: ~50 (szacunek)
- Kategoria: Security / Networking
- Tagi: to-read idn homograph domain phishing unicode punycode url
Streszczenie
ShamFinder to automatyczny framework do wykrywania IDN homograph attacks — ataków gdzie atakujący rejestruje domenę z wizualnie podobnymi znakami Unicode zamiast ASCII (np. аmazon.com z cyrylicą а zamiast a). Framework generuje potencjalne homograph domeny, sprawdza ich rejestrację i ocenia stopień wizualnego podobieństwa.
Kluczowe dla M1 (URL Analyzer): homoglyph/punycode detection to jeden z feature engineering komponentów, gdzie ShamFinder dostarcza metodologię i dataset podobnych znaków Unicode.
Kluczowe Wnioski
- Automatyczna generacja homograph candidates: confusable Unicode chars dla każdej domeny
- Zbiór confusable characters: Unicode Consortium confusables.txt + custom rozszerzenia
- Skala: przeskanowali Alexa Top 10k → znaleźli setki zarejestrowanych homograph domen
- Financial brands szczególnie narażone:
paypaI.com(I vs l),аmazon.com(cyrylica)
Metodologia
- Generuj all confusable variants domeny (Unicode confusables database)
- Sprawdź rejestrację przez DNS lookup
- Wizualna analiza podobieństwa (rendering font)
- Klasyfikacja: malicious vs typosquatting vs legitimate IDN
Zastosowanie w projekcie
M1 — homoglyph feature:
import unicodedata
CONFUSABLES = load_unicode_confusables() # z Unicode Consortium
def homoglyph_score(url_domain, brand_list):
"""Czy url_domain to konfuzowalna wersja jakiejś marki?"""
for brand in brand_list:
for variant in generate_confusable_variants(brand, CONFUSABLES):
if normalize(url_domain) == normalize(variant):
return 1.0 # high phishing signal
return levenshtein_to_nearest_brand(url_domain, brand_list) / 10.0Sekcja 2 Related Work: “IDN homograph attacks (Suzuki et al. 2019) exploit Unicode confusable characters to impersonate financial brands at the domain level.”
Notatki
Cytowanie dla M1 homoglyph detection feature — daje methodology reference. Sprawdź arXiv:1909.07539 dla szczegółów Unicode confusables approach. Alternatywna referencja: “Measuring IDN Homograph Attacks” — szukaj przez Google Scholar jeśli potrzebna bardziej cytowana praca.