當Transformer模型發生「注意力分佈過於平均(Attention Collapse)」的情形時,導致模型無法有效聚焦於關鍵資訊,下列哪一項策略可有效改善此問題?
iPAS 考題解析
當Transformer模型發生「注意力分佈過於平均(Attention Collapse)」的情形時,導致模型無法有效聚焦於關鍵資訊,下列哪一項策略可有效改善此問題?
- A. 提高Query-Key點積(Dot Product)的縮放常數
- B. 在Softmax前加入高斯雜訊(Gaussian Noise)
- C. 使用ReLU函數取代Softmax
- D. 對注意力權重施加稀疏化約束(Sparsity Constraint) ✓ 正確答案
詳細解析
對注意力權重施加稀疏化約束,可強制模型將注意力集中於少數關鍵位置,而非平均分散在所有位置,從而解決注意力崩潰(Attention Collapse)問題,使模型聚焦關鍵資訊。
出題年份:114 難度:★★☆