0

🏷️ Contrastive Learning

🔍 Trong ngữ cảnh bạn đang làm (ghép text ↔ image), nó cụ thể là: 📛 Cross-Modal Contrastive Learning hoặc

📛 Multimodal Contrastive Learning 💥 Ví dụ nổi bật: Mô hình Ý tưởng chính CLIP (OpenAI) Học không gian chung cho text & image embeddings. Dùng contrastive loss để ghép caption đúng với ảnh. ALIGN (Google) Giống CLIP nhưng scale lên hàng tỷ dữ liệu. SimCLR Contrastive learning cho ảnh (image-only). MoCo Momentum contrast – image-only nhưng cũng dùng similarity matrix.

🧠 Các kỹ thuật chính dùng trong đó: Tên kỹ thuật Mô tả Contrastive Loss Phân biệt cặp dương (positive) và cặp âm (negative) InfoNCE Phiên bản chuẩn hoá của contrastive loss, dùng softmax + CE Cosine Similarity Đo độ gần giữa vector embedding Softmax over similarities Xem mỗi dòng (text) như bài toán phân loại ảnh đúng trong batch

📌 Tóm lại: Technique này là một dạng Contrastive Learning, cụ thể là Cross-Modal Contrastive Learning nếu bạn áp dụng trên ảnh và văn bản.

Bạn cũng có thể nói: → “CLIP-style contrastive loss” → “InfoNCE loss over similarity matrix”

Muốn mình gửi tài liệu đọc nhanh hoặc hình minh họa CLIP không?


All rights reserved

Viblo
Hãy đăng ký một tài khoản Viblo để nhận được nhiều bài viết thú vị hơn.
Đăng kí