---
title: "注意力圖（Attention Map）"
slug: attention-map
language: zh-TW
source: https://aiterms.tw/learning/what-is-attention-map
updated_at: 2026-07-04
tags: [深度學習, 自然語言處理, 電腦視覺, 神經網路, source:ipas]
ipas_term: true
type: deep-dive
---

# 注意力圖 是什麼？

> 注意力圖是注意力機制的內部權重視覺化表示，呈現模型在處理序列資料時，各個元素之間的相互關注程度與依賴關係。

## 核心概念
注意力圖是深度學習與神經網路領域中，用來理解與分析注意力機制運作結果的重要結構。在探討注意力圖之前，必須先理解注意力機制的本質。人類在觀察環境或閱讀文本時，不會將等量的認知資源分配給視野中的每一個細節，而是會將焦點集中在當下任務最相關的區域。深度學習中的注意力機制便是受到此一認知過程的啟發，讓神經網路學會在處理大量輸入資料時，自動賦予不同部分不同的權重。注意力圖正是這些權重的具體呈現。

注意力圖本質上是一個矩陣，其中的每一個數值代表了模型在特定處理階段，對某個輸入元素分配的關注程度。在自然語言處理中，輸入元素可能是句子中的詞彙或子詞；在電腦視覺中，輸入元素可能是影像被切割後的局部區塊。矩陣中的高數值意味著高度的相關性或重要性，低數值則表示關聯性較弱。透過觀察這個矩陣，研究人員與工程師能夠窺探模型內部的決策邏輯，了解模型在產生特定輸出時，主要是依據哪些輸入資訊。

從數學與資料結構的角度來看，注意力圖是一個正規化後的機率分佈矩陣。在自注意力機制中，如果輸入序列長度為特定數值，那麼注意力圖通常是一個方陣。這個方陣的每一行代表一個目標元素，每一列代表來源元素，方陣中的元素值則表示目標元素在更新自身的特徵表示時，從該來源元素擷取了多少資訊。這種明確且具體的權重分佈，讓原本被視為黑盒子的神經網路模型，在一定程度上具備了可解釋性。

在大型語言模型與基於轉換器架構的各類模型中，注意力圖不是單一存在的。由於這些模型廣泛採用多頭注意力機制，模型在每一層網路中都會平行計算多組注意力圖。不同的注意力頭可能會學習到不同的特徵關聯性，例如在處理自然語言時，有些注意力頭專注於文法結構，有些注意力頭專注於語意關聯，有些則可能負責追蹤代名詞的指涉對象。綜合分析這些不同層級與不同頭的注意力圖，能夠全面且深入地剖析模型的運作行為與理解能力。

## 運作原理
要深入了解注意力圖的生成過程，必須探究其背後的數學運算與神經網路架構。注意力圖的計算主要依賴於三個核心向量空間的轉換：查詢向量、鍵向量與值向量。當模型接收到輸入資料並將其轉換為初始的嵌入表示後，這些表示會分別通過不同的線性轉換層，產生對應的查詢矩陣、鍵矩陣與值矩陣。這三個矩陣是計算注意力圖的基礎元件。

注意力圖的產生過程首先發生在查詢矩陣與鍵矩陣之間。對於輸入序列中的每一個元素，模型會使用其查詢向量去計算與序列中所有其他元素的鍵向量的匹配程度。這個匹配程度通常透過計算兩個向量的內積來實現。內積數值越大，代表兩個元素在當前的特徵空間中具有越高的相關性。由於輸入序列中的每一個元素都會與所有元素進行這項計算，最終會得到一個原始的注意力分數矩陣。這個矩陣記錄了序列中任意兩個元素之間的未正規化關聯強度。

然而，原始的注意力分數可能會隨著向量維度的增加而變得極大，這會導致後續的梯度計算出現不穩定的情況。為了避免這個問題，原始注意力分數矩陣通常會除以一個縮放因子，這個縮放因子通常是鍵向量維度的平方根。這個步驟被稱為縮放點積注意力。縮放後的矩陣不僅數值分佈更加穩定，也有助於神經網路在訓練過程中更順暢地進行權重更新。

接下來是形成最終注意力圖的關鍵步驟。縮放後的注意力分數矩陣會通過一個 Softmax 啟動函數。Softmax 函數會對矩陣的每一行進行指數運算並正規化，確保每一行的數值總和為一，且所有數值皆介於零與一之間。這個經過 Softmax 正規化後的矩陣，就是我們所稱的注意力圖。它代表了一個機率分佈，顯示了目標元素在聚合資訊時，應該對各個來源元素分配多少比例的權重。

在獲得注意力圖之後，模型會將這個圖與值矩陣進行矩陣相乘。這個步驟的物理意義在於，根據注意力圖所提供的權重比例，對所有的值向量進行加權總和。如果注意力圖中某個位置的權重很高，表示對應的值向量會在最終的特徵聚合中佔據主導地位；反之，權重較低的值向量則會被抑制。經過這個加權聚合的過程，模型就產生了融合了全局上下文資訊的新特徵表示，並將其傳遞給下一層神經網路繼續處理。整個過程中，注意力圖扮演了資訊流通的篩選器與分配器角色。

## 實際應用
注意力圖在人工智慧的多個子領域中都有極為廣泛且關鍵的應用。在自然語言處理領域，早期的神經機器翻譯系統面臨著長句處理效能低下的問題。引入注意力機制後，注意力圖成功解決了這個痛點。在翻譯過程中，生成目標語言的每一個詞彙時，解碼器都能透過注意力圖，動態地決定應該關注來源語言句子中的哪些部分。研究人員可以將這個注意力圖視覺化為一個熱力圖，清楚地觀察到來源語言與目標語言之間的詞彙對齊關係，例如名詞與其修飾語的對應，或是動詞在不同語言結構中的位置轉換。這不僅提升了翻譯品質，也為語言學的跨語種研究提供了量化工具。

在文本摘要任務中，注意力圖幫助模型從冗長的文章中萃取出關鍵句子與核心概念。透過分析模型生成摘要時的注意力分佈，我們可以驗證模型是否確實捕捉到了文章的重點段落。在閱讀理解與問答系統中，注意力圖的應用更為直接。當模型回答問題時，它會針對問題文本與參考文件計算交叉注意力圖。高亮顯示注意力圖中權重較高的文件片段，往往就能夠準確標示出問題的答案所在位置，大幅提升了系統的透明度與可信度。

電腦視覺領域自從引入了視覺轉換器架構後，注意力圖的應用也迎來了爆發性的成長。在傳統卷積神經網路中，理解模型關注的區域通常需要依賴額外的可解釋性演算法。而在視覺轉換器中，影像被分割成多個小區塊處理，這些區塊之間的互動完全透過注意力機制完成。因此，將自注意力圖疊加在原始影像上，就可以直接視覺化模型在進行影像分類或物件偵測時，視線停留的位置。這種影像注意力圖在醫療影像分析等高風險應用中尤為重要，因為醫生需要知道人工智慧系統是根據病灶的哪一個特徵做出診斷，注意力圖提供了一種直觀的驗證方式。

在多模態人工智慧的發展中，注意力圖扮演著連接不同模態資料的橋樑角色。以文字生成影像的擴散模型為例，使用者輸入一段描述性的提示詞，模型需要將這些文字概念轉化為視覺像素。在這個過程中，跨模態注意力機制會計算文字提示與影像潛在空間特徵之間的注意力圖。透過分析這些注意力圖，研究人員可以觀察到紅色的蘋果這個文字概念是如何精準地映射到生成影像中的特定區域。這種跨模態的對齊能力，是實現高保真度與高語意一致性生成的關鍵，而注意力圖則是觀察與優化此一能力的最佳窗口。

## 常見誤區
儘管注意力圖為神經網路提供了一定程度的內部透明度，但在實際應用與解讀時，存在一些需要謹慎避免的常見誤區。最普遍的誤解是將注意力權重與特徵重要性完全等同。許多開發者與研究人員傾向於認為，如果注意力圖中某個元素的權重極高，就代表該元素是模型做出最終預測的決定性因素。然而，學術界對於注意力是否等於解釋一直存在廣泛的爭論。在複雜的多層網路中，注意力機制的主要功能是聚合資訊。有時候，一個元素獲得高注意力，是因為它作為一個資訊樞紐，收集了來自其他元素的上下文資訊，而非因為它本身的原始特徵對預測結果有直接貢獻。

另一個常見的誤區是忽略了模型架構的層級與深度。在轉換器模型中，淺層的注意力圖通常捕捉到的是局部的、表面的關聯性，例如相鄰詞彙之間的搭配關係；而深層的注意力圖則處理高度抽象的語意或全局結構。直接將深層網路的注意力圖映射回原始輸入空間進行直觀解釋，往往會得到令人困惑甚至誤導的結論。這是因為深層特徵已經經過了多次非線性轉換與資訊混合，其代表的意義早已脫離了原始的字面或像素層次。

此外，過度依賴單一注意力頭的視覺化結果也是一個需要避免的陷阱。現代模型普遍採用多頭注意力機制，每一個頭可能負責學習不同維度的特徵關聯。僅憑觀察其中一個頭的注意力圖，就對模型的整體決策過程下結論，無異於瞎子摸象。有些頭甚至可能表現出看似隨機或無意義的注意力分佈。因此，在進行可解釋性分析時，必須綜合考量所有注意力頭的表現，或者採用特定的聚合演算法，來萃取出具有代表性的全局注意力模式，而不是單獨抽離某個特定視角進行過度解讀。

## 與相關技術的比較
為了更清晰地界定注意力圖的特性與價值，我們可以將其與其他常見的深度學習內部狀態表示或可解釋性技術進行比較。首先是與卷積神經網路中的特徵圖的比較。特徵圖是透過卷積核在輸入資料上滑動運算所產生的，它反映了資料在局部感受野內的特定模式活化程度。卷積操作本質上是局部的，要捕捉全局關聯需要堆疊極深的神經網路層。相對而言，注意力圖從一開始就是全局計算的產物，它計算序列中任意兩個位置之間的關聯，因此能夠在極淺的網路層中捕捉到長距離的依賴關係，這是注意力圖在架構上的根本優勢。

其次，將注意力圖與基於梯度的歸因方法進行比較。歸因方法是一種事後解釋技術，它透過計算模型輸出對輸入特徵的偏導數，來評估每個輸入特徵對最終預測的貢獻度。這類方法需要執行額外的反向傳播計算，且其結果受到目標類別選擇的影響。相比之下，注意力圖是模型前向傳播過程中的固有中間產物，它反映的是模型在處理資訊時的內部動態聚合過程，而不需要依賴特定的任務輸出或反向運算。兩者提供了不同視角的解釋：注意力圖顯示了模型如何建立內部特徵關聯，而梯度歸因方法則專注於輸入特徵與輸出預測之間的因果關聯。

最後，我們觀察注意力機制與傳統遞迴神經網路中隱藏狀態的差異。傳統遞迴網路將序列的歷史資訊壓縮在一個固定長度的隱藏狀態向量中，這導致了在處理長序列時容易遭遇資訊遺忘或梯度消失的問題。模型在處理當前元素時，只能依賴這個被壓縮且可能失真的隱藏狀態。而注意力機制的引入徹底改變了這個範式。注意力圖允許模型在處理每一個元素時，都能直接且完整地存取過去所有元素的原始表示，並根據當下需求動態分配權重。注意力圖將原本隱晦且隨時間衰減的歷史依賴關係，轉化為明確且可量化的空間矩陣關係，這正是現代大型模型能夠展現出強大長文本理解能力的基礎核心。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 什麼是多頭注意力機制中的注意力圖？

在多頭注意力機制中，模型不會只計算單一一個注意力圖。為了讓模型能夠從不同的特徵子空間捕捉輸入序列的多元關聯性，輸入向量會被分割或映射到多個不同的子空間（即所謂的頭）。每一個注意力頭都會獨立進行查詢、鍵、值的計算，並產生自己專屬的注意力圖。這些各自獨立的注意力圖能夠讓模型同時專注於不同的任務，例如在閱讀句子時，一個頭可能專注於文法時態，另一個頭可能專注於代名詞的指涉對象。最終，所有頭的輸出會被拼接並進行線性轉換，整合為全面的特徵表示。

### 為什麼觀察深層網路的注意力圖有時難以理解？

淺層網路的注意力圖通常處理的是原始輸入資料（如單字或影像區塊）之間的直接關聯，因此人類觀察者比較容易從直觀上理解其意義，例如相鄰單詞的依賴。然而，隨著網路層數的加深，輸入特徵經歷了多次的非線性轉換與注意力混合，其所代表的資訊已經變得高度抽象。深層網路中的元素不再是單純的字詞或像素，而是融合了全局上下文的複雜語意向量。因此，當我們觀察深層網路的注意力圖時，它反映的是這些高度抽象概念之間的互動，這已經超出了人類直覺所能輕易對應的具體事物，導致視覺化結果看似難以解釋。

### 注意力圖與顯著圖有什麼不同？

注意力圖與顯著圖雖然都是為了理解模型行為而採用的視覺化工具，但兩者的計算來源與代表意義有本質上的差異。注意力圖是注意力機制前向傳播過程中的內生變數，它是一個權重矩陣，反映了模型在構建內部特徵表示時，元素之間的資訊聚合比例。而顯著圖通常是透過反向傳播的梯度計算或其他事後歸因演算法得出的，它顯示的是針對某一個特定的最終預測結果（例如影像分類為特定物件），哪些輸入特徵提供了最大的貢獻或敏感度。簡而言之，注意力圖展示模型內部資訊如何交流，顯著圖展示哪些輸入決定了模型的最終輸出。

---

深度解說頁：https://aiterms.tw/learning/what-is-attention-map
快查頁：https://aiterms.tw/terms/attention-map
最後更新：2026/07/04