某公司正在訓練一個大型語音合成模型,開發團隊使用多台GPU進行訓練,但經常出現GPU記憶體不足問題。由於模型架構已固定且無法更換硬體,團隊希望在維持模型效能與收斂品質的前提下,下列哪一種方法最有效降低單張GPU的記憶體壓力?
iPAS 考題解析
某公司正在訓練一個大型語音合成模型,開發團隊使用多台GPU進行訓練,但經常出現GPU記憶體不足問題。由於模型架構已固定且無法更換硬體,團隊希望在維持模型效能與收斂品質的前提下,下列哪一種方法最有效降低單張GPU的記憶體壓力?
- A. 減少訓練資料量以降低記憶體使用
- B. 採用較小的批次大小(Batch Size)並搭配資料分片(Data Sharding)分散訓練負載 ✓ 正確答案
- C. 增加學習率(Learning Rate)以加快收斂速度
- D. 改用測試資料集(Test Set)進行部分訓練以節省空間
詳細解析
減小批次大小直接降低每次前向和反向傳播時需要在GPU記憶體中存放的激活值和梯度大小;配合資料分片將不同批次的資料分散到多台GPU處理,既降低了記憶體壓力又維持了訓練的整體效率。
出題年份:114 難度:★★☆