ShamFinder: An Automated Framework for Detecting IDN Homographs

Metadane

Autorzy: Hiroaki Suzuki, Daiki Chiba, Yoshiro Yoneya, Tatsuya Mori, Shigeki Goto
Rok: 2019
Źródło: arXiv 1909.07539 (konferencja IMC 2019)
DOI: arXiv:1909.07539
Status: to-read
Cytowania: ~50 (szacunek)
Kategoria: Security / Networking
Tagi: to-read idn homograph domain phishing unicode punycode url

Streszczenie

ShamFinder to automatyczny framework do wykrywania IDN homograph attacks — ataków gdzie atakujący rejestruje domenę z wizualnie podobnymi znakami Unicode zamiast ASCII (np. аmazon.com z cyrylicą а zamiast a). Framework generuje potencjalne homograph domeny, sprawdza ich rejestrację i ocenia stopień wizualnego podobieństwa.

Kluczowe dla M1 (URL Analyzer): homoglyph/punycode detection to jeden z feature engineering komponentów, gdzie ShamFinder dostarcza metodologię i dataset podobnych znaków Unicode.

Kluczowe Wnioski

Automatyczna generacja homograph candidates: confusable Unicode chars dla każdej domeny
Zbiór confusable characters: Unicode Consortium confusables.txt + custom rozszerzenia
Skala: przeskanowali Alexa Top 10k → znaleźli setki zarejestrowanych homograph domen
Financial brands szczególnie narażone: paypaI.com (I vs l), аmazon.com (cyrylica)

Metodologia

Generuj all confusable variants domeny (Unicode confusables database)
Sprawdź rejestrację przez DNS lookup
Wizualna analiza podobieństwa (rendering font)
Klasyfikacja: malicious vs typosquatting vs legitimate IDN

Zastosowanie w projekcie

M1 — homoglyph feature:

import unicodedata
 
CONFUSABLES = load_unicode_confusables()  # z Unicode Consortium
 
def homoglyph_score(url_domain, brand_list):
    """Czy url_domain to konfuzowalna wersja jakiejś marki?"""
    for brand in brand_list:
        for variant in generate_confusable_variants(brand, CONFUSABLES):
            if normalize(url_domain) == normalize(variant):
                return 1.0  # high phishing signal
    return levenshtein_to_nearest_brand(url_domain, brand_list) / 10.0

Sekcja 2 Related Work: “IDN homograph attacks (Suzuki et al. 2019) exploit Unicode confusable characters to impersonate financial brands at the domain level.”

Notatki

Cytowanie dla M1 homoglyph detection feature — daje methodology reference. Sprawdź arXiv:1909.07539 dla szczegółów Unicode confusables approach. Alternatywna referencja: “Measuring IDN Homograph Attacks” — szukaj przez Google Scholar jeśli potrzebna bardziej cytowana praca.

Research

Przeglądaj

ShamFinder: An Automated Framework for Detecting IDN Homographs

ShamFinder: An Automated Framework for Detecting IDN Homographs

Metadane

Streszczenie

Kluczowe Wnioski

Metodologia

Zastosowanie w projekcie

Notatki