Transformer(Transformer)

Transformer 是一種基於自注意力機制(Self-Attention)的深度學習架構,能平行處理序列資料,是 GPT、BERT 等大型語言模型的核心基礎。

完整說明

Transformer 於 2017 年由 Google 團隊在論文《Attention Is All You Need》中提出。它捨棄了傳統 RNN 的循序處理方式,改用自注意力機制(Self-Attention Mechanism)讓模型能同時「看到」整段輸入序列中每個位置的資訊,大幅提升了訓練效率與長距離依賴的捕捉能力。Transformer 的編碼器-解碼器架構成為自然語言處理(NLP)領域的標準範式,衍生出 BERT(僅編碼器)、GPT(僅解碼器)等重要模型。目前幾乎所有主流大型語言模型(LLM)都以 Transformer 為基礎架構。

iPAS 考試出題分析

根據歷年 iPAS AI 應用規劃師考古題統計,Transformer 相關題目 平均佔 AI 技術類考題 12%, 屬於高頻考範圍。

常見出題方向包含:注意力機制原理(佔 40%)、Transformer 與 RNN/CNN 比較(佔 35%)、衍生模型區分(佔 25%)。

相關術語

常見問題

Transformer 和 RNN 的主要差異是什麼?

RNN 循序處理序列資料,無法平行運算且容易遺忘長距離資訊。Transformer 透過自注意力機制一次處理整段序列,可高度平行化且能捕捉長距離依賴關係。

GPT 和 BERT 都是 Transformer 嗎?

是的。GPT 使用 Transformer 的解碼器部分(Decoder-only),專精於文本生成。BERT 使用編碼器部分(Encoder-only),專精於文本理解任務如分類和問答。

範例考題

Transformer 架構的核心運算機制為何?

  • A. 卷積運算(Convolution)
  • B. 自注意力機制(Self-Attention) ✓ 正確答案
  • C. 循環運算(Recurrence)
  • D. 池化運算(Pooling)

解析:

Transformer 的核心是自注意力機制(Self-Attention),它讓模型能同時關注輸入序列中所有位置的資訊,捨棄了 RNN 的循環運算和 CNN 的卷積運算。

下列哪項是 Transformer 相較於 RNN 的主要優勢?

  • A. 記憶體使用量較低
  • B. 支援平行運算,訓練效率更高 ✓ 正確答案
  • C. 模型參數量較少
  • D. 不需要 GPU 就能訓練

解析:

Transformer 的自注意力機制可以平行處理整個序列,不像 RNN 必須逐步處理。這使得 Transformer 在 GPU 上的訓練效率遠高於 RNN。

延伸學習

深入了解 Transformer 的完整運作原理

延伸學習

想看 Transformer 的完整影片教學?前往 美第奇 AI 學院

立即測驗

想測試你對 Transformer 的掌握程度? 開始模擬考