---
title: "注意力崩潰（Attention Collapse）"
slug: attention-collapse
language: zh-TW
source: https://aiterms.tw/terms/attention-collapse
updated_at: 2026-07-04
tags: [深度學習, 模型訓練, 神經網路, 大型語言模型, source:ipas]
ipas_term: true
---

# 注意力崩潰（Attention Collapse）

注意力崩潰指深度神經網路的注意力權重趨向一致，導致模型無法有效區分輸入特徵的現象。

## 完整說明

注意力崩潰是一種在深層神經網路中出現的結構性退化現象，指的是注意力矩陣權重逐漸趨向均勻分佈。它會導致模型無法有效區分輸入特徵，常見於極深 Transformer 架構的訓練過程中，必須透過正規化與殘差連接來克服。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 什麼情況下模型特別容易發生注意力崩潰現象？

這種現象通常發生在網路層數極深且缺乏適當殘差連接設計的 Transformer 架構中。當模型的深度超過一定限制，且未採用預層正規化或特定的初始化技術時，多次疊加的注意力聚合操作會像馬可夫鏈一樣使特徵逐漸趨於平穩分佈。特別是在訓練資料的特徵分佈較為單一，或者損失函數中缺乏對特徵多樣性的懲罰項時，深層注意力矩陣更容易失去區分不同輸入區塊的能力，最終導致崩潰。

### 注意力崩潰會如何影響大型語言模型的實際表現？

在大型語言模型中，注意力崩潰會導致模型喪失理解長文本上下文的能力。因為深層網路的注意力權重變得均勻，模型無法有效區分句子中的關鍵詞與冗餘詞，這會使得生成的文字缺乏邏輯連貫性，或者在機器翻譯等任務中產生意義模糊的翻譯結果。具體表現為增加網路層數後，模型在訓練集與驗證集上的損失函數不僅無法進一步下降，甚至可能出現效能倒退的現象，浪費了深層架構原本應具備的強大參數容量。

### 目前有哪些主流技術可以用來預防或解決注意力崩潰？

解決方案主要集中在架構改良與正則化技術兩個方面。在架構層面，預層正規化和增強的殘差連接是最普遍的做法，能夠幫助原始特徵直接傳遞至深層。此外，針對多頭注意力機制的冗餘問題，研究人員會引入多樣性損失函數，強制不同注意力頭學習相異的特徵表示。有些先進設計甚至會將卷積層的局部感知能力融入注意力模組，或者利用對比學習策略來主動拉開特徵空間中的向量距離，從而有效維持深層特徵的多樣性。

---

來源：https://aiterms.tw/terms/attention-collapse
快查頁：https://aiterms.tw/terms/attention-collapse
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-attention-collapse