某媒體公司計畫導入CLIP(Contrastive Language-Image Pre-training)模型,以協助大量影像自動標註與搜尋,並希望在無需新增標訓資料的情況下,僅透過文字提示(Text Prompt)即可識別影像內容。請問此應用情境中,CLIP能夠達成的關鍵技術特性為何?

iPAS 考題解析

某媒體公司計畫導入CLIP(Contrastive Language-Image Pre-training)模型,以協助大量影像自動標註與搜尋,並希望在無需新增標訓資料的情況下,僅透過文字提示(Text Prompt)即可識別影像內容。請問此應用情境中,CLIP能夠達成的關鍵技術特性為何?

  • A. 透過圖文對比式學習(Contrastive Learning)將影像與文字映射至共同嵌入空間(Shared Embedding Space),可直接以語意相似度進行零樣本分類 ✓ 正確答案
  • B. 透過影像增強與特徵擴散降低標訓資料需求
  • C. 以監督式學習結合多層感知器(Multilayer Perceptron, MLP)進行影像特徵分類
  • D. 以自迴歸生成模型(Autoregressive Model)逐步生成文字標籤描述影像內容

詳細解析

CLIP透過大規模圖文對的對比學習,將影像和文字映射到同一語意空間。推論時只需計算影像嵌入與各類別文字描述嵌入的相似度即可分類,無需任何標注樣本,實現真正的零樣本(Zero-shot)分類能力。

出題年份:114 難度:★★☆