對非常長的輸入序列進行推理（Inference），Transformer 模型推理的主要計算瓶頸通常是什麼？

Question

Accepted Answer

D. 自注意力層的計算和其記憶體使用，因為注意力矩陣的大小隨序列長度呈平方級增長。Transformer 的自注意力機制需要計算序列中每個 Token 與所有其他 Token 的注意力分數，產生 N*N 的注意力矩陣（N 為序列長度）。計算量和記憶體使用都隨序列長度呈 O(N^2) 增長，這是長序列推理的主要瓶頸。

Answer

A. 模型輸出層產生文本的過程，因為每生成一個詞都必須重新訓練整個模型一次；

Answer

B. 詞嵌入（Embedding）查找操作，因為其時間複雜度隨詞彙表大小指數級增長；

Answer

C. Softmax 函數的計算，因為對每個 Token 都需要執行繁重的運算；

Answer

D. 自注意力層的計算和其記憶體使用，因為注意力矩陣的大小隨序列長度呈平方級增長

iPAS 考題解析

詳細解析