什麼是 注意力機制(Attention Mechanism)?
注意力機制是一種讓模型在處理序列資料時,自動聚焦於輸入中最相關部分的計算方法,是 Transformer 架構的核心運算單元。
注意力機制 的完整說明
注意力機制(Attention Mechanism)最早由 Bahdanau 等人於 2014 年提出,用於改善機器翻譯中的序列對齊問題。其核心思想是讓模型在生成輸出的每一步,都能根據「相關性」動態分配不同的權重給輸入序列中的各個位置。自注意力(Self-Attention)是其重要變體,讓序列中的每個元素都能與同一序列中的所有其他元素計算相關性。Transformer 中的多頭注意力(Multi-Head Attention)進一步擴展了這個概念,透過多組平行的注意力運算來捕捉不同面向的語意關係。
注意力機制 在 iPAS 考試中的重點
根據歷年統計,注意力機制 相關題目 平均佔 AI 技術類考題 8%, 屬於高頻考範圍。
常見出題方向:注意力計算原理(50%)、自注意力與交叉注意力差異(30%)、Q/K/V 概念(20%)。
相關術語
常見問題
什麼是 Q、K、V?
Q(Query)、K(Key)、V(Value)是注意力機制中的三個核心向量。Query 代表「我在找什麼」,Key 代表「我有什麼特徵」,Value 代表「我攜帶的實際資訊」。注意力分數透過 Q 和 K 的點積計算,再用來加權 V。
注意力機制和人類的注意力有什麼關係?
概念上相似但機制不同。人類注意力是選擇性聚焦,而模型的注意力機制是為所有輸入計算「重要性權重」,讓模型自動學會該關注哪些部分,是一種軟性的加權選擇。