Trademark Infringement Detection in E-Commerce With Multimodal Contrastive Learning

Metadane

Streszczenie

Wykrywanie naruszenia znaków towarowych w e-commerce przy użyciu multimodalnego contrastive learning — embeddingi z LLM (tekst) i VLM (obraz) połączone do wykrywania impersonacji marek przez produkty e-commerce. Bezpośrednia analogia do M2 (brand matching) w FinPhishGuard.

Kluczowe Wnioski

  • Multimodalne embeddingi (tekst + obraz) skuteczniejsze niż unimodalne dla trademark detection
  • LLM embeddingi tekstu + VLM embeddingi logo → cosine similarity jako detektor impersonacji
  • Podejście zero-shot: nowe marki bez retrainingu — wystarczy dodać embedding do bazy
  • Contrastive learning (CLIP-style) naturalnie odporne na drobne perturbacje wizualne

Metodologia

  • LLM: embeddingi nazwy marki i opisu produktu
  • VLM: embeddingi logo i zdjęcia produktu
  • Fuzja: concatenation lub weighted sum embeddingów
  • Similarity: cosine distance z bazą wektorową zarejestrowanych marek

Notatki

Rola w projekcie: Bezpośredni precedens dla M2 FinPhishGuard: użycie embeddings modelu (user ma dostęp!) do brand similarity zamiast Siamese network. Trademark detection w e-commerce = bardzo zbliżone do brand impersonation w phishingu. Argument: embedding-based M2 odporniejszy na adversarial perturbacje niż pixel-level ResNet Siamese.

Elementów w folderze: 0.