對非常長的輸入序列進行推理（Inference），Transformer模型推理的主要計算瓶頸通常是什麼？

Question

Accepted Answer

D. 自注意力層的計算和其記憶體使用，因為注意力矩陣的大小隨序列長度呈平方級增長。Transformer 的自注意力（Self-Attention）計算複雜度為 O(n²)，注意力矩陣隨序列長度平方級增長，是長序列推理的主要瓶頸。

Answer

A. 模型輸出層產生文本的過程，因為每生成一個詞都必須重新訓練整個模型一次；

Answer

B. 詞嵌入（Embedding）查找操作，因為其時間複雜度隨詞彙表大小指數級增長；

Answer

C. Softmax函數的計算，因為對每個Token都需要執行繁重的運算；

Answer

D. 自注意力層的計算和其記憶體使用，因為注意力矩陣的大小隨序列長度呈平方級增長

iPAS 考題解析