當Transformer模型發生「注意力分佈過於平均(Attention Collapse)」的情形時,導致模型無法有效聚焦於關鍵資訊,下列哪一項策略可有效改善此問題?

iPAS 考題解析

當Transformer模型發生「注意力分佈過於平均(Attention Collapse)」的情形時,導致模型無法有效聚焦於關鍵資訊,下列哪一項策略可有效改善此問題?

  • A. 提高Query-Key點積(Dot Product)的縮放常數
  • B. 在Softmax前加入高斯雜訊(Gaussian Noise)
  • C. 使用ReLU函數取代Softmax
  • D. 對注意力權重施加稀疏化約束(Sparsity Constraint) ✓ 正確答案

詳細解析

對注意力權重施加稀疏化約束,可強制模型將注意力集中於少數關鍵位置,而非平均分散在所有位置,從而解決注意力崩潰(Attention Collapse)問題,使模型聚焦關鍵資訊。

出題年份:114 難度:★★☆