Attention Collapse(注意力坍縮)的改善方法為何?

iPAS 考題解析

Attention Collapse(注意力坍縮)的改善方法為何?

  • A. 提高 QK 縮放常數
  • B. 在注意力權重中加入高斯雜訊
  • C. 用 ReLU 取代 Softmax
  • D. 對注意力權重施加稀疏化約束 ✓ 正確答案

詳細解析

Attention Collapse 是指注意力權重集中在少數幾個位置,導致模型無法有效利用其他資訊。對注意力權重施加稀疏化約束,可以強制模型分散注意力,避免坍縮。

難度:★★★