Transformer（Transformer）

Transformer 是一種基於自注意力機制（Self-Attention）的深度學習架構，能平行處理序列資料，是 GPT、BERT 等大型語言模型的核心基礎。

完整說明

Transformer 於 2017 年由 Google 團隊在論文《Attention Is All You Need》中提出。它捨棄了傳統 RNN 的循序處理方式，改用自注意力機制（Self-Attention Mechanism）讓模型能同時「看到」整段輸入序列中每個位置的資訊，大幅提升了訓練效率與長距離依賴的捕捉能力。Transformer 的編碼器-解碼器架構成為自然語言處理（NLP）領域的標準範式，衍生出 BERT（僅編碼器）、GPT（僅解碼器）等重要模型。目前幾乎所有主流大型語言模型（LLM）都以 Transformer 為基礎架構。

iPAS 考試出題分析

根據歷年 iPAS AI 應用規劃師考古題統計，Transformer 相關題目平均佔 AI 技術類考題 12%，屬於高頻考範圍。

常見出題方向包含：注意力機制原理（佔 40%）、Transformer 與 RNN/CNN 比較（佔 35%）、衍生模型區分（佔 25%）。

常見問題

Transformer 和 RNN 的主要差異是什麼？

RNN 循序處理序列資料，無法平行運算且容易遺忘長距離資訊。Transformer 透過自注意力機制一次處理整段序列，可高度平行化且能捕捉長距離依賴關係。

GPT 和 BERT 都是 Transformer 嗎？

是的。GPT 使用 Transformer 的解碼器部分（Decoder-only），專精於文本生成。BERT 使用編碼器部分（Encoder-only），專精於文本理解任務如分類和問答。

範例考題

Transformer 架構的核心運算機制為何？

A. 卷積運算（Convolution）
B. 自注意力機制（Self-Attention） ✓ 正確答案
C. 循環運算（Recurrence）
D. 池化運算（Pooling）

解析：

Transformer 的核心是自注意力機制（Self-Attention），它讓模型能同時關注輸入序列中所有位置的資訊，捨棄了 RNN 的循環運算和 CNN 的卷積運算。

下列哪項是 Transformer 相較於 RNN 的主要優勢？

A. 記憶體使用量較低
B. 支援平行運算，訓練效率更高 ✓ 正確答案
C. 模型參數量較少
D. 不需要 GPU 就能訓練

解析：

Transformer 的自注意力機制可以平行處理整個序列，不像 RNN 必須逐步處理。這使得 Transformer 在 GPU 上的訓練效率遠高於 RNN。

延伸學習

深入了解 Transformer 的完整運作原理

延伸學習

想看 Transformer 的完整影片教學？前往美第奇 AI 學院

立即測驗

想測試你對 Transformer 的掌握程度？開始模擬考

Transformer（Transformer）

完整說明

iPAS 考試出題分析

相關術語

包含

核心組成

常見問題

Transformer 和 RNN 的主要差異是什麼？

GPT 和 BERT 都是 Transformer 嗎？

範例考題

延伸學習

立即測驗