什麼是 Transformer(Transformer)?

Transformer 是一種基於自注意力機制(Self-Attention)的深度學習架構,能平行處理序列資料,是 GPT、BERT 等大型語言模型的核心基礎。

Transformer 的運作原理

Transformer 的核心概念是「注意力機制」。傳統的循環神經網路(RNN)在處理文字序列時,必須依序讀取每個字詞,這導致長文本的處理效率低落,且容易遺忘前面的資訊。Transformer 透過自注意力機制,讓模型能一次性處理整段文字,並為每個字詞分配不同的「注意力權重」。

自注意力機制(Self-Attention)

自注意力的運作方式可以簡化理解:對於輸入序列中的每個字詞,模型會計算它與其他所有字詞之間的「相關性分數」。這讓模型能理解「它」指的是哪個名詞,或者「銀行」在不同語境下的含義差異。

多頭注意力(Multi-Head Attention)

Transformer 使用多組注意力運算(多頭),每組關注不同面向的語意關係。例如一組可能關注語法結構,另一組關注語意相似性。

位置編碼(Positional Encoding)

由於 Transformer 不像 RNN 有天然的順序概念,它需要額外加入位置編碼,讓模型知道每個字詞在序列中的位置。

Transformer 的應用場景

1. **自然語言處理**:翻譯、文本生成、情感分析、問答系統
2. **電腦視覺**:Vision Transformer(ViT)將圖片切割成 patch 序列處理
3. **語音辨識**:Whisper 等模型使用 Transformer 進行端到端語音轉文字
4. **多模態 AI**:GPT-4V、Gemini 等可同時處理文字和影像

在 iPAS 考試中的重點

根據歷年統計,Transformer 相關題目平均佔 AI 技術類考題的 12%,是高頻考點。常見出題方向包含:

  • 注意力機制的原理(佔 40%)
  • Transformer 與 RNN/CNN 的差異比較(佔 35%)
  • Transformer 衍生模型的區分(佔 25%)

    Transformer 在 iPAS 考試中的重點

    根據歷年統計,Transformer 相關題目 平均佔 AI 技術類考題 12%, 屬於高頻考範圍。

    常見出題方向:注意力機制原理(40%)、Transformer 與 RNN/CNN 比較(35%)、衍生模型區分(25%)。

    相關術語

    常見問題

    Transformer 和 RNN 的主要差異是什麼?

    RNN 循序處理序列資料,無法平行運算且容易遺忘長距離資訊。Transformer 透過自注意力機制一次處理整段序列,可高度平行化且能捕捉長距離依賴關係。

    GPT 和 BERT 都是 Transformer 嗎?

    是的。GPT 使用 Transformer 的解碼器部分(Decoder-only),專精於文本生成。BERT 使用編碼器部分(Encoder-only),專精於文本理解任務如分類和問答。

    ← 回到 Transformer 快查頁

    延伸學習

    想看 Transformer 的完整影片教學?前往 美第奇 AI 學院

    測驗你對 Transformer 的理解

    透過模擬考系統檢驗學習成果

    開始測驗