在大型語言模型(LLM)的推論服務中,常透過請求批次處理(Batching)來提升系統效能。關於批次處理(Batching)機制的影響,下列敘述何者最正確?

iPAS 考題解析

在大型語言模型(LLM)的推論服務中,常透過請求批次處理(Batching)來提升系統效能。關於批次處理(Batching)機制的影響,下列敘述何者最正確?

  • A. Batching 可提升加速器資源使用效率並增加整體吞吐量(Throughput),但在部分情境下可能對單筆請求延遲造成影響 ✓ 正確答案
  • B. Batching 主要用於加快單筆請求回應時間
  • C. Batching 的效益主要來自降低記憶體使用量,對於吞吐量(Throughput)與延遲表現影響有限
  • D. Batching 在低併發(Concurrency)請求下,仍能明顯提升系統效能

詳細解析

Batching 的主要效益是提高 GPU 等加速器的利用率並增加系統吞吐量,但因為需要等待湊滿一批請求再一起處理,可能對個別請求的延遲造成影響。這是批次處理的典型取捨。

出題年份:115 難度:★★☆