某媒體公司計畫導入CLIP(Contrastive Language-Image Pre-training)模型,以協助大量影像自動標註與搜尋,並希望在無需新增標訓資料的情況下,僅透過文字提示(Text Prompt)即可識別影像內容。請問此應用情境中,CLIP能夠達成的關鍵技術特性為何?
iPAS 考題解析
某媒體公司計畫導入CLIP(Contrastive Language-Image Pre-training)模型,以協助大量影像自動標註與搜尋,並希望在無需新增標訓資料的情況下,僅透過文字提示(Text Prompt)即可識別影像內容。請問此應用情境中,CLIP能夠達成的關鍵技術特性為何?
- A. 透過圖文對比式學習(Contrastive Learning)將影像與文字映射至共同嵌入空間(Shared Embedding Space),可直接以語意相似度進行零樣本分類 ✓ 正確答案
- B. 透過影像增強與特徵擴散降低標訓資料需求
- C. 以監督式學習結合多層感知器(Multilayer Perceptron, MLP)進行影像特徵分類
- D. 以自迴歸生成模型(Autoregressive Model)逐步生成文字標籤描述影像內容
詳細解析
CLIP透過大規模圖文對的對比學習,將影像和文字映射到同一語意空間。推論時只需計算影像嵌入與各類別文字描述嵌入的相似度即可分類,無需任何標注樣本,實現真正的零樣本(Zero-shot)分類能力。
出題年份:114 難度:★★☆