在大型語言模型(LLM)的效能優化中,Flash Attention 常被用來改善 Transformer 注意力機制的運算效率。關於 Flash Attention 的主要效益,下列敘述何者最正確?

iPAS 考題解析

在大型語言模型(LLM)的效能優化中,Flash Attention 常被用來改善 Transformer 注意力機制的運算效率。關於 Flash Attention 的主要效益,下列敘述何者最正確?

  • A. 透過忽略影響較小的注意力權重,減少模型需要計算的關聯數量,以降低運算成本
  • B. 透過調整注意力計算與資料處理方式,減少中間結果的儲存需求,進而改善速度與資源使用效率 ✓ 正確答案
  • C. 透過增加注意力計算的並行程度,使模型可同時處理更多注意力頭部
  • D. 透過將注意力結果暫存於高速快取記憶體,以避免重複計算造成延遲

詳細解析

Flash Attention 的核心創新是透過 tiling(分塊)技術和重新排列計算順序,減少對 GPU 高頻寬記憶體(HBM)的讀寫次數,降低中間結果的儲存需求,從而提升速度和記憶體使用效率。

出題年份:115 難度:★★☆