某媒體公司計畫導入CLIP（Contrastive Language-Image Pre-training）模型，以協助大量影像自動標註與搜尋，並希望在無需新增標訓資料的情況下，僅透過文字提示（Text Prompt）即可識別影像內容。請問此應用情境中，CLIP能夠達成的關鍵技術特性為何？

Question

Accepted Answer

A. 透過圖文對比式學習（Contrastive Learning）將影像與文字映射至共同嵌入空間（Shared Embedding Space），可直接以語意相似度進行零樣本分類。CLIP透過大規模圖文對的對比學習，將影像和文字映射到同一語意空間。推論時只需計算影像嵌入與各類別文字描述嵌入的相似度即可分類，無需任何標注樣本，實現真正的零樣本（Zero-shot）分類能力。

Answer

A. 透過圖文對比式學習（Contrastive Learning）將影像與文字映射至共同嵌入空間（Shared Embedding Space），可直接以語意相似度進行零樣本分類

Answer

B. 透過影像增強與特徵擴散降低標訓資料需求

Answer

C. 以監督式學習結合多層感知器（Multilayer Perceptron, MLP）進行影像特徵分類

Answer

D. 以自迴歸生成模型（Autoregressive Model）逐步生成文字標籤描述影像內容

iPAS 考題解析

詳細解析