在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?

iPAS 考題解析

在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?

  • A. 對輸入資料進行隨機旋轉或水平翻轉,以增加資料多樣性;
  • B. 選用 ReLU 或其變體作為隱藏層的啟動函數,以改善梯度傳播; ✓ 正確答案
  • C. 減少樣本量提升訓練速度;
  • D. 對目標變數或特徵進行標準化

詳細解析

ReLU(Rectified Linear Unit)及其變體(如 Leaky ReLU、ELU)能有效緩解梯度消失問題,因為正值區域的梯度恆為 1,不會像 Sigmoid 或 Tanh 那樣在深層網路中導致梯度逐層衰減。這是提升收斂速度和穩定性的最常用方法。

出題年份:114 難度:★★☆