ShamFinder: An Automated Framework for Detecting IDN Homographs

Metadane

  • Autorzy: Hiroaki Suzuki, Daiki Chiba, Yoshiro Yoneya, Tatsuya Mori, Shigeki Goto
  • Rok: 2019
  • Źródło: arXiv 1909.07539 (konferencja IMC 2019)
  • DOI: arXiv:1909.07539
  • Status: to-read
  • Cytowania: ~50 (szacunek)
  • Kategoria: Security / Networking
  • Tagi: to-read idn homograph domain phishing unicode punycode url

Streszczenie

ShamFinder to automatyczny framework do wykrywania IDN homograph attacks — ataków gdzie atakujący rejestruje domenę z wizualnie podobnymi znakami Unicode zamiast ASCII (np. аmazon.com z cyrylicą а zamiast a). Framework generuje potencjalne homograph domeny, sprawdza ich rejestrację i ocenia stopień wizualnego podobieństwa.

Kluczowe dla M1 (URL Analyzer): homoglyph/punycode detection to jeden z feature engineering komponentów, gdzie ShamFinder dostarcza metodologię i dataset podobnych znaków Unicode.

Kluczowe Wnioski

  • Automatyczna generacja homograph candidates: confusable Unicode chars dla każdej domeny
  • Zbiór confusable characters: Unicode Consortium confusables.txt + custom rozszerzenia
  • Skala: przeskanowali Alexa Top 10k → znaleźli setki zarejestrowanych homograph domen
  • Financial brands szczególnie narażone: paypaI.com (I vs l), аmazon.com (cyrylica)

Metodologia

  1. Generuj all confusable variants domeny (Unicode confusables database)
  2. Sprawdź rejestrację przez DNS lookup
  3. Wizualna analiza podobieństwa (rendering font)
  4. Klasyfikacja: malicious vs typosquatting vs legitimate IDN

Zastosowanie w projekcie

M1 — homoglyph feature:

import unicodedata
 
CONFUSABLES = load_unicode_confusables()  # z Unicode Consortium
 
def homoglyph_score(url_domain, brand_list):
    """Czy url_domain to konfuzowalna wersja jakiejś marki?"""
    for brand in brand_list:
        for variant in generate_confusable_variants(brand, CONFUSABLES):
            if normalize(url_domain) == normalize(variant):
                return 1.0  # high phishing signal
    return levenshtein_to_nearest_brand(url_domain, brand_list) / 10.0

Sekcja 2 Related Work: “IDN homograph attacks (Suzuki et al. 2019) exploit Unicode confusable characters to impersonate financial brands at the domain level.”

Notatki

Cytowanie dla M1 homoglyph detection feature — daje methodology reference. Sprawdź arXiv:1909.07539 dla szczegółów Unicode confusables approach. Alternatywna referencja: “Measuring IDN Homograph Attacks” — szukaj przez Google Scholar jeśli potrzebna bardziej cytowana praca.

Elementów w folderze: 0.