在大型語言模型(LLM)的推論服務中,常透過請求批次處理(Batching)來提升系統效能。關於批次處理(Batching)機制的影響,下列敘述何者最正確?
iPAS 考題解析
在大型語言模型(LLM)的推論服務中,常透過請求批次處理(Batching)來提升系統效能。關於批次處理(Batching)機制的影響,下列敘述何者最正確?
- A. Batching 可提升加速器資源使用效率並增加整體吞吐量(Throughput),但在部分情境下可能對單筆請求延遲造成影響 ✓ 正確答案
- B. Batching 主要用於加快單筆請求回應時間
- C. Batching 的效益主要來自降低記憶體使用量,對於吞吐量(Throughput)與延遲表現影響有限
- D. Batching 在低併發(Concurrency)請求下,仍能明顯提升系統效能
詳細解析
Batching 的主要效益是提高 GPU 等加速器的利用率並增加系統吞吐量,但因為需要等待湊滿一批請求再一起處理,可能對個別請求的延遲造成影響。這是批次處理的典型取捨。
出題年份:115 難度:★★☆