---
title: "巴丹瑙注意力（Bahdanau Attention）"
slug: bahdanau-attention
language: zh-TW
source: https://aiterms.tw/terms/bahdanau-attention
updated_at: 2026-07-04
tags: [深度學習, 自然語言處理, 神經網路, source:ipas]
ipas_term: true
---

# 巴丹瑙注意力（Bahdanau Attention）

巴丹瑙注意力允許序列模型在解碼時動態聚焦於相關的輸入特徵，有效克服長序列造成的資訊遺失問題。

## 完整說明

巴丹瑙注意力是一種應用於序列模型的對齊機制，用於解決神經網路處理長序列時的資訊瓶頸。它能夠在解碼階段動態計算當前狀態與各個輸入特徵的相關分數，並匯總為上下文向量以輔助生成輸出。常見應用包括機器翻譯、語音辨識與自動摘要等自然語言處理任務。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 巴丹瑙注意力機制如何解決循環神經網路的長期依賴問題？

在傳統序列到序列架構中，編碼器必須將所有輸入壓縮成單一向量。當序列過長時，早期資訊容易被覆蓋而產生瓶頸。巴丹瑙注意力機制解決此問題的核心在於，它保留了編碼器在所有時間步的狀態。在解碼時，模型會計算當前狀態與所有輸入特徵的相關性權重並進行加權求和。這代表解碼器能動態聚焦於最相關的輸入片段，而不必依賴單一壓縮向量，從根本上繞過長距離傳遞的限制，確保模型能夠精準捕捉長序列中的語意細節。

### 加性注意力與乘性注意力有何不同之處？

加性注意力與乘性注意力的主要差異在於對齊分數的計算方式。巴丹瑙提出的加性注意力透過一個前饋網路，將編碼器與解碼器的狀態結合並通過非線性函數來計算分數。這種設計在兩者維度不一致時具備較高靈活性。而乘性注意力則利用向量內積或矩陣乘法來評估相關性。由於現代硬體對矩陣運算有高度優化，乘性注意力在運算速度與效率上通常表現更佳，特別是在高維度運算中。不過，加性注意力的訓練過程有時呈現出較好的數值穩定性。

### 為什麼巴丹瑙注意力機制的計算成本較高？

巴丹瑙注意力機制的計算成本較高，主因在於它必須在每個解碼時間步計算與所有輸入特徵的對齊分數。若輸入長度為 N，輸出長度為 M，模型便需執行 N 乘以 M 次的運算。這使得其計算複雜度與長度呈現二次方增長。此外，其加性注意力依賴前饋神經網路進行運算，比起單純的向量內積消耗更多資源。當處理長篇文章時，會導致記憶體佔用遽增並拉長推理時間，這也促使了後續局部注意力與稀疏注意力等效率優化技術的發展。

---

來源：https://aiterms.tw/terms/bahdanau-attention
快查頁：https://aiterms.tw/terms/bahdanau-attention
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-bahdanau-attention