Trademark Infringement Detection in E-Commerce With Multimodal Contrastive Learning
Metadane
- Autorzy: Xiaowei Ma et al.
- Rok: 2025
- Źródło: IEEE Access, DOI: 10.1109/ACCESS.2025.3610856
- Status: reference
- Kategoria: Security / Computer Vision / Multimodal
- Tagi: reference trademark brand-impersonation contrastive-learning embeddings multimodal e-commerce #2025
Streszczenie
Wykrywanie naruszenia znaków towarowych w e-commerce przy użyciu multimodalnego contrastive learning — embeddingi z LLM (tekst) i VLM (obraz) połączone do wykrywania impersonacji marek przez produkty e-commerce. Bezpośrednia analogia do M2 (brand matching) w FinPhishGuard.
Kluczowe Wnioski
- Multimodalne embeddingi (tekst + obraz) skuteczniejsze niż unimodalne dla trademark detection
- LLM embeddingi tekstu + VLM embeddingi logo → cosine similarity jako detektor impersonacji
- Podejście zero-shot: nowe marki bez retrainingu — wystarczy dodać embedding do bazy
- Contrastive learning (CLIP-style) naturalnie odporne na drobne perturbacje wizualne
Metodologia
- LLM: embeddingi nazwy marki i opisu produktu
- VLM: embeddingi logo i zdjęcia produktu
- Fuzja: concatenation lub weighted sum embeddingów
- Similarity: cosine distance z bazą wektorową zarejestrowanych marek
Notatki
Rola w projekcie: Bezpośredni precedens dla M2 FinPhishGuard: użycie embeddings modelu (user ma dostęp!) do brand similarity zamiast Siamese network. Trademark detection w e-commerce = bardzo zbliżone do brand impersonation w phishingu. Argument: embedding-based M2 odporniejszy na adversarial perturbacje niż pixel-level ResNet Siamese.