在訓練神經網路時，為了提升模型收斂速度與穩定性，避免梯度消失或梯度爆炸，下列哪一種做法最常被使用？

Question

Accepted Answer

B. 選用 ReLU 或其變體作為隱藏層的啟動函數，以改善梯度傳播；。ReLU（Rectified Linear Unit）及其變體（如 Leaky ReLU、ELU）能有效緩解梯度消失問題，因為正值區域的梯度恆為 1，不會像 Sigmoid 或 Tanh 那樣在深層網路中導致梯度逐層衰減。這是提升收斂速度和穩定性的最常用方法。

Answer

A. 對輸入資料進行隨機旋轉或水平翻轉，以增加資料多樣性；

Answer

B. 選用 ReLU 或其變體作為隱藏層的啟動函數，以改善梯度傳播；

Answer

C. 減少樣本量提升訓練速度；

Answer

D. 對目標變數或特徵進行標準化

iPAS 考題解析

詳細解析