在大型語言模型（LLM）的推論服務中，常透過請求批次處理（Batching）來提升系統效能。關於批次處理（Batching）機制的影響，下列敘述何者最正確？

Question

Accepted Answer

A. Batching 可提升加速器資源使用效率並增加整體吞吐量（Throughput），但在部分情境下可能對單筆請求延遲造成影響。Batching 的主要效益是提高 GPU 等加速器的利用率並增加系統吞吐量，但因為需要等待湊滿一批請求再一起處理，可能對個別請求的延遲造成影響。這是批次處理的典型取捨。

Answer

A. Batching 可提升加速器資源使用效率並增加整體吞吐量（Throughput），但在部分情境下可能對單筆請求延遲造成影響

Answer

B. Batching 主要用於加快單筆請求回應時間

Answer

C. Batching 的效益主要來自降低記憶體使用量，對於吞吐量（Throughput）與延遲表現影響有限

Answer

D. Batching 在低併發（Concurrency）請求下，仍能明顯提升系統效能

iPAS 考題解析

詳細解析