在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?
iPAS 考題解析
在訓練神經網路時,為了提升模型收斂速度與穩定性,避免梯度消失或梯度爆炸,下列哪一種做法最常被使用?
- A. 對輸入資料進行隨機旋轉或水平翻轉,以增加資料多樣性;
- B. 選用ReLU或其變體作為隱藏層的啟動函數,以改善梯度傳播; ✓ 正確答案
- C. 減少樣本量提升訓練速度;
- D. 對目標變數或特徵進行標準化
詳細解析
ReLU(Rectified Linear Unit)及其變體(如 Leaky ReLU、GELU)能有效避免梯度消失(Vanishing Gradient)問題,是改善神經網路(Neural Network, NN)梯度傳播最常用的做法。
難度:★★☆