什麼是 Transformer(Transformer)?
Transformer 是一種基於自注意力機制(Self-Attention)的深度學習架構,能平行處理序列資料,是 GPT、BERT 等大型語言模型的核心基礎。
Transformer 的運作原理
Transformer 的核心概念是「注意力機制」。傳統的循環神經網路(RNN)在處理文字序列時,必須依序讀取每個字詞,這導致長文本的處理效率低落,且容易遺忘前面的資訊。Transformer 透過自注意力機制,讓模型能一次性處理整段文字,並為每個字詞分配不同的「注意力權重」。
自注意力機制(Self-Attention)
自注意力的運作方式可以簡化理解:對於輸入序列中的每個字詞,模型會計算它與其他所有字詞之間的「相關性分數」。這讓模型能理解「它」指的是哪個名詞,或者「銀行」在不同語境下的含義差異。
多頭注意力(Multi-Head Attention)
Transformer 使用多組注意力運算(多頭),每組關注不同面向的語意關係。例如一組可能關注語法結構,另一組關注語意相似性。
位置編碼(Positional Encoding)
由於 Transformer 不像 RNN 有天然的順序概念,它需要額外加入位置編碼,讓模型知道每個字詞在序列中的位置。
Transformer 的應用場景
1. **自然語言處理**:翻譯、文本生成、情感分析、問答系統
2. **電腦視覺**:Vision Transformer(ViT)將圖片切割成 patch 序列處理
3. **語音辨識**:Whisper 等模型使用 Transformer 進行端到端語音轉文字
4. **多模態 AI**:GPT-4V、Gemini 等可同時處理文字和影像
在 iPAS 考試中的重點
根據歷年統計,Transformer 相關題目平均佔 AI 技術類考題的 12%,是高頻考點。常見出題方向包含:
Transformer 在 iPAS 考試中的重點
根據歷年統計,Transformer 相關題目 平均佔 AI 技術類考題 12%, 屬於高頻考範圍。
常見出題方向:注意力機制原理(40%)、Transformer 與 RNN/CNN 比較(35%)、衍生模型區分(25%)。
相關術語
常見問題
Transformer 和 RNN 的主要差異是什麼?
RNN 循序處理序列資料,無法平行運算且容易遺忘長距離資訊。Transformer 透過自注意力機制一次處理整段序列,可高度平行化且能捕捉長距離依賴關係。
GPT 和 BERT 都是 Transformer 嗎?
是的。GPT 使用 Transformer 的解碼器部分(Decoder-only),專精於文本生成。BERT 使用編碼器部分(Encoder-only),專精於文本理解任務如分類和問答。
延伸學習
想看 Transformer 的完整影片教學?前往 美第奇 AI 學院