在大型語言模型（LLM）的效能優化中，Flash Attention 常被用來改善 Transformer 注意力機制的運算效率。關於 Flash Attention 的主要效益，下列敘述何者最正確？

Question

Accepted Answer

B. 透過調整注意力計算與資料處理方式，減少中間結果的儲存需求，進而改善速度與資源使用效率。Flash Attention 的核心創新是透過 tiling（分塊）技術和重新排列計算順序，減少對 GPU 高頻寬記憶體（HBM）的讀寫次數，降低中間結果的儲存需求，從而提升速度和記憶體使用效率。

Answer

A. 透過忽略影響較小的注意力權重，減少模型需要計算的關聯數量，以降低運算成本

Answer

B. 透過調整注意力計算與資料處理方式，減少中間結果的儲存需求，進而改善速度與資源使用效率

Answer

C. 透過增加注意力計算的並行程度，使模型可同時處理更多注意力頭部

Answer

D. 透過將注意力結果暫存於高速快取記憶體，以避免重複計算造成延遲

iPAS 考題解析