Attention Collapse(注意力坍縮)的改善方法為何?
iPAS 考題解析
Attention Collapse(注意力坍縮)的改善方法為何?
- A. 提高 QK 縮放常數
- B. 在注意力權重中加入高斯雜訊
- C. 用 ReLU 取代 Softmax
- D. 對注意力權重施加稀疏化約束 ✓ 正確答案
詳細解析
Attention Collapse 是指注意力權重集中在少數幾個位置,導致模型無法有效利用其他資訊。對注意力權重施加稀疏化約束,可以強制模型分散注意力,避免坍縮。
難度:★★★