在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?

iPAS 考題解析

在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?

  • A. 對輸入資料進行隨機旋轉或水平翻轉,以增加資料多樣性;
  • B. 選用ReLU或其變體作為隱藏層的啟動函數,以改善梯度傳播; ✓ 正確答案
  • C. 減少樣本量提升訓練速度;
  • D. 對目標變數或特徵進行標準化

詳細解析

ReLU(Rectified Linear Unit)及其變體(如 Leaky ReLU、GELU)能有效避免梯度消失(Vanishing Gradient)問題,是改善神經網路(Neural Network, NN)梯度傳播最常用的做法。

難度:★★☆