在 Transformer 架構中，「多頭注意力（Multi-Head Attention）」相比單頭注意力的主要優勢為何？

Question

Accepted Answer

C. 允許模型同時從不同的表示子空間捕捉不同層次的語境資訊。多頭注意力將查詢、鍵、值投影到多個不同的子空間，每個「頭」可學習關注不同類型的依賴關係（如語法、語義、位置等），最後將各頭的輸出拼接。這使模型能從多個角度同時分析輸入，比單一注意力頭更豐富。

Answer

A. 減少模型參數量，加速推理速度

Answer

B. 允許模型關注整個輸入序列的單一表示

Answer

C. 允許模型同時從不同的表示子空間捕捉不同層次的語境資訊

Answer

D. 替代位置編碼提供序列位置信息

iPAS 考題解析