某公司正在訓練一個大型語音合成模型，開發團隊使用多台GPU進行訓練，但經常出現GPU記憶體不足問題。由於模型架構已固定且無法更換硬體，團隊希望在維持模型效能與收斂品質的前提下，下列哪一種方法最有效降低單張GPU的記憶體壓力？

Question

Accepted Answer

B. 採用較小的批次大小（Batch Size）並搭配資料分片（Data Sharding）分散訓練負載。減小批次大小直接降低每次前向和反向傳播時需要在GPU記憶體中存放的激活值和梯度大小；配合資料分片將不同批次的資料分散到多台GPU處理，既降低了記憶體壓力又維持了訓練的整體效率。

Answer

A. 減少訓練資料量以降低記憶體使用

Answer

B. 採用較小的批次大小（Batch Size）並搭配資料分片（Data Sharding）分散訓練負載

Answer

C. 增加學習率（Learning Rate）以加快收斂速度

Answer

D. 改用測試資料集（Test Set）進行部分訓練以節省空間

iPAS 考題解析