什麼是 Transformer（Transformer）？

Transformer 是一種基於自注意力機制（Self-Attention）的深度學習架構，能平行處理序列資料，是 GPT、BERT 等大型語言模型的核心基礎。

Transformer 的運作原理
Transformer 的核心概念是「注意力機制」。傳統的循環神經網路（RNN）在處理文字序列時，必須依序讀取每個字詞，這導致長文本的處理效率低落，且容易遺忘前面的資訊。Transformer 透過自注意力機制，讓模型能一次性處理整段文字，並為每個字詞分配不同的「注意力權重」。

自注意力機制（Self-Attention）
自注意力的運作方式可以簡化理解：對於輸入序列中的每個字詞，模型會計算它與其他所有字詞之間的「相關性分數」。這讓模型能理解「它」指的是哪個名詞，或者「銀行」在不同語境下的含義差異。

多頭注意力（Multi-Head Attention）
Transformer 使用多組注意力運算（多頭），每組關注不同面向的語意關係。例如一組可能關注語法結構，另一組關注語意相似性。

位置編碼（Positional Encoding）
由於 Transformer 不像 RNN 有天然的順序概念，它需要額外加入位置編碼，讓模型知道每個字詞在序列中的位置。

Transformer 的應用場景
1. 自然語言處理：翻譯、文本生成、情感分析、問答系統
2. 電腦視覺：Vision Transformer（ViT）將圖片切割成 patch 序列處理
3. 語音辨識：Whisper 等模型使用 Transformer 進行端到端語音轉文字
4. 多模態 AI：GPT-4V、Gemini 等可同時處理文字和影像

在 iPAS 考試中的重點
根據歷年統計，Transformer 相關題目平均佔 AI 技術類考題的 12%，是高頻考點。常見出題方向包含：
注意力機制的原理（佔 40%）
Transformer 與 RNN/CNN 的差異比較（佔 35%）
Transformer 衍生模型的區分（佔 25%）
Transformer 在 iPAS 考試中的重點

根據歷年統計，Transformer 相關題目平均佔 AI 技術類考題 12%，屬於高頻考範圍。

常見出題方向：注意力機制原理（40%）、Transformer 與 RNN/CNN 比較（35%）、衍生模型區分（25%）。

相關術語
包含
大型語言模型（Large Language Model (LLM)）
核心組成
注意力機制（Attention Mechanism）

常見問題

Transformer 和 RNN 的主要差異是什麼？

RNN 循序處理序列資料，無法平行運算且容易遺忘長距離資訊。Transformer 透過自注意力機制一次處理整段序列，可高度平行化且能捕捉長距離依賴關係。

GPT 和 BERT 都是 Transformer 嗎？

是的。GPT 使用 Transformer 的解碼器部分（Decoder-only），專精於文本生成。BERT 使用編碼器部分（Encoder-only），專精於文本理解任務如分類和問答。

← 回到 Transformer 快查頁

延伸學習

想看 Transformer 的完整影片教學？前往美第奇 AI 學院

測驗你對 Transformer 的理解

透過模擬考系統檢驗學習成果
開始測驗