自注意力(Self-Attention)是什麼?

自注意力是一種機制,讓序列中的每個元素計算彼此關聯度,藉此捕捉序列內部的依賴關係|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

英文
Self-Attention
主題標籤
深度學習、自然語言處理、神經網路
考點定位
非 iPAS 核心術語
最後更新
2026/06/17
自注意力(Self-Attention)是什麼? 深度學習自然語言處理
術語快查

搜尋意圖: 如果你在找「自注意力 是什麼」或「自注意力 和相近概念差在哪」,先看這頁的短定義、完整說明與延伸比較。

TL;DR: 自注意力是一種機制,讓序列中的每個元素計算彼此關聯度,藉此捕捉序列內部的依賴關係

實用情境: 適合用在閱讀 AI 文章、產品文件或和同事討論時,先用一頁快速對齊概念。

下一步: 先讀完定義,再往下看延伸比較與對應工具,把概念轉成實際應用。

你讀一句話時,會不會自然把注意力放到真正有關的字上?

你可以把自注意力想成句子裡每個詞都互相看一眼,再決定誰對誰最重要。

它重要是因為 Transformer 之類的模型,靠的就是這種全局關聯能力。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

自注意力 vs 注意力機制

自注意力是同一序列內部互相看 注意力機制是更廣的總稱 最關鍵的區別是子集合還是總概念。

自注意力 vs RNN

自注意力可以同時看整個序列 RNN 是一步接一步處理 最關鍵的區別是並行全看還是順序讀。

記住這句就好

句子裡每個詞都能互相打分,這就是自注意力。

實際案例

機器翻譯 模型在翻譯一個代名詞時,能回頭看前文的主詞,讓翻譯更準。

長文摘要 模型可以同時看標題、段落和關鍵句,而不是只記住前幾個字。

算法與應用

常見流程是把輸入變成 Query、Key、Value,再算權重做加權和。 它能處理長距離依賴,但計算量通常是 O(n^2)。 位置編碼很重要,因為注意力本身不會自動知道詞序。

情境判斷

Q1(直覺題): 如果一句話裡前後兩個詞相隔很遠,但模型還能把它們連起來,靠的常是什麼?

常常是自注意力。

Q2(判斷題): 自注意力既然能看全句,就不需要位置資訊了嗎?

不是。沒有位置編碼,模型通常不知道詞的先後順序。

常見問題

Query、Key、Value 是什麼?

A:Query 是要找什麼,Key 是可被比對的索引,Value 是實際要取回的內容。

自注意力怎麼處理不同長度序列?

A:通常會 padding 成同長度,再搭配遮罩處理。

位置編碼做什麼?

A:它把順序資訊加進模型,讓模型知道誰先誰後。