對比語言圖像預訓練（CLIP）｜AI 術語定義

CLIP (Contrastive Language-Image Pre-training)

核心概念

CLIP (Contrastive Language-Image Pre-training) 是一種由 OpenAI 開發的視覺語言模型。它旨在學習圖像和文本之間的關聯，使其能夠理解圖像的語義並將其與相應的文本描述聯繫起來。與傳統的圖像分類模型不同，CLIP 採用對比學習的方法，無需針對特定任務進行訓練，即可實現零樣本圖像分類。

運作原理

CLIP 的運作原理主要包括以下幾個步驟：

數據收集： CLIP 使用大量的圖像-文本對數據進行訓練。這些數據來自網際網路，包含各種各樣的圖像和與之相關的文本描述。
視覺編碼器 (Image Encoder)： 使用卷積神經網路 (CNN) 或 Transformer 架構（例如 Vision Transformer, ViT）將圖像編碼成視覺特徵向量。
文本編碼器 (Text Encoder)： 使用 Transformer 架構（例如 BERT）將文本描述編碼成文本特徵向量。
對比學習： 對於每個圖像-文本對，CLIP 的目標是最大化它們之間的相似度，同時最小化與其他圖像-文本對的相似度。具體來說，CLIP 計算所有圖像-文本對之間的餘弦相似度，並使用 softmax 函數將其轉換為概率分佈。然後，使用交叉熵損失函數來訓練模型，使其能夠正確地預測圖像和文本之間的匹配關係。
零樣本分類： 在進行零樣本分類時，CLIP 首先將所有類別名稱編碼成文本特徵向量。然後，將待分類的圖像編碼成視覺特徵向量。最後，計算圖像特徵向量與所有類別文本特徵向量之間的相似度，並將圖像分類到相似度最高的類別中。

CLIP 的核心思想是通過對比學習，學習圖像和文本之間的共享語義空間。在這個共享空間中，相似的圖像和文本會被映射到相近的位置，而不相似的圖像和文本則會被映射到較遠的位置。這樣，CLIP 就可以通過比較圖像和文本之間的距離，來判斷它們是否相關。

實際應用

CLIP 在許多實際應用中都表現出色：

零樣本圖像分類 (Zero-Shot Image Classification)： CLIP 可以在沒有任何訓練數據的情況下，將圖像分類到預定義的類別中。這使得 CLIP 非常適用於處理新的或未知的類別。
圖像檢索 (Image Retrieval)： CLIP 可以根據文本查詢檢索相關的圖像。例如，輸入文本查詢「一隻戴著帽子的貓」，CLIP 可以檢索到包含戴著帽子的貓的圖像。
圖像描述生成 (Image Captioning)： CLIP 可以生成圖像的文字描述。例如，輸入一張包含海邊日落的圖像，CLIP 可以生成描述「海邊日落，天空是橙色的」的文字。
視覺問答 (Visual Question Answering, VQA)： CLIP 可以回答關於圖像的問題。例如，輸入一張包含蘋果的圖像和問題「蘋果是什麼顏色？」，CLIP 可以回答「紅色」。
跨模態檢索 (Cross-Modal Retrieval)： CLIP 可以根據圖像查詢檢索相關的文本，或根據文本查詢檢索相關的圖像。

常見誤區

CLIP 能夠完全理解圖像和文本： 儘管 CLIP 在許多任務中表現出色，但它仍然無法像人類一樣完全理解圖像和文本。它的理解能力受到訓練數據和模型架構的限制。
CLIP 適用於所有圖像和文本： CLIP 的性能取決於圖像和文本的質量。對於一些模糊或不清晰的圖像，或一些語義不明確的文本，CLIP 的性能可能會下降。
CLIP 不需要任何訓練數據： 儘管 CLIP 能夠進行零樣本分類，但它仍然需要大量的訓練數據來學習圖像和文本之間的關聯。CLIP 的性能取決於訓練數據的質量和數量。

與相關技術的比較

傳統圖像分類模型： 傳統圖像分類模型需要針對特定任務進行訓練，而 CLIP 則可以進行零樣本分類。這使得 CLIP 更加靈活和通用。
Word2Vec 和 GloVe： Word2Vec 和 GloVe 是用於學習詞向量的模型。CLIP 則學習圖像和文本之間的共享語義空間，使其能夠理解圖像的語義。
BERT： BERT 是一種用於自然語言處理的 Transformer 模型。CLIP 使用 BERT 作為文本編碼器，將文本描述編碼成文本特徵向量。
Vision Transformer (ViT)： ViT 是一種用於圖像處理的 Transformer 模型。CLIP 可以使用 ViT 作為視覺編碼器，將圖像編碼成視覺特徵向量。

對比語言圖像預訓練（CLIP）

完整說明