在 Transformer 架構中,「多頭注意力(Multi-Head Attention)」相比單頭注意力的主要優勢為何?

iPAS 考題解析

在 Transformer 架構中,「多頭注意力(Multi-Head Attention)」相比單頭注意力的主要優勢為何?

  • A. 減少模型參數量,加速推理速度
  • B. 允許模型關注整個輸入序列的單一表示
  • C. 允許模型同時從不同的表示子空間捕捉不同層次的語境資訊 ✓ 正確答案
  • D. 替代位置編碼提供序列位置信息

詳細解析

多頭注意力將查詢、鍵、值投影到多個不同的子空間,每個「頭」可學習關注不同類型的依賴關係(如語法、語義、位置等),最後將各頭的輸出拼接。這使模型能從多個角度同時分析輸入,比單一注意力頭更豐富。

出題年份:114 難度:★★☆