某設計師使用公司內部建置的生成式AI工具製作行銷素材,並輸入提示語(Prompt):「請生成一張模特兒手持品牌飲料、背景為海邊夕陽的照片」。系統能正確生成主要主題與場景,但輸出的圖像中,品牌標誌顏色常有誤差,或人物手部姿勢顯得不自然。若從多模態生成模型的技術機制分析,此現象最可能是下列哪一項原因所造成?
iPAS 考題解析
某設計師使用公司內部建置的生成式AI工具製作行銷素材,並輸入提示語(Prompt):「請生成一張模特兒手持品牌飲料、背景為海邊夕陽的照片」。系統能正確生成主要主題與場景,但輸出的圖像中,品牌標誌顏色常有誤差,或人物手部姿勢顯得不自然。若從多模態生成模型的技術機制分析,此現象最可能是下列哪一項原因所造成?
- A. 擴散式生成模型的去雜訊過程出現隨機梯度漂移,導致影像像素錯誤
- B. 提示語過長造成Transformer的位置編碼超出上下文限制,導致生成混亂
- C. CLIP模型中的文字編碼器與影像編碼器在語意嵌入空間未充分對齊,導致跨模態理解偏差 ✓ 正確答案
- D. 模型未採用對比學習(Contrastive Learning)損失函數,無法建立多模態語意關聯
詳細解析
品牌標誌顏色誤差和手部姿勢不自然,反映了文字描述(品牌顏色、手持姿勢等細節)與生成影像之間的語意對齊不精準。這是CLIP文字編碼器與影像編碼器在嵌入空間未能充分對齊的典型表現,導致細粒度的視覺-語言對應出現偏差。
出題年份:114 難度:★★☆