某設計師使用公司內部建置的生成式AI工具製作行銷素材，並輸入提示語（Prompt）：「請生成一張模特兒手持品牌飲料、背景為海邊夕陽的照片」。系統能正確生成主要主題與場景，但輸出的圖像中，品牌標誌顏色常有誤差，或人物手部姿勢顯得不自然。若從多模態生成模型的技術機制分析，此現象最可能是下列哪一項原因所造成？

Question

Accepted Answer

C. CLIP模型中的文字編碼器與影像編碼器在語意嵌入空間未充分對齊，導致跨模態理解偏差。品牌標誌顏色誤差和手部姿勢不自然，反映了文字描述（品牌顏色、手持姿勢等細節）與生成影像之間的語意對齊不精準。這是CLIP文字編碼器與影像編碼器在嵌入空間未能充分對齊的典型表現，導致細粒度的視覺-語言對應出現偏差。

Answer

A. 擴散式生成模型的去雜訊過程出現隨機梯度漂移，導致影像像素錯誤

Answer

B. 提示語過長造成Transformer的位置編碼超出上下文限制，導致生成混亂

Answer

C. CLIP模型中的文字編碼器與影像編碼器在語意嵌入空間未充分對齊，導致跨模態理解偏差

Answer

D. 模型未採用對比學習（Contrastive Learning）損失函數，無法建立多模態語意關聯

iPAS 考題解析

考試範圍定位

題目與選項

詳細解析

各選項逐一解析

延伸學習

中等題備考建議

同主題考題練習

iPAS AI 應用規劃師認證簡介

開始準備 iPAS 考試