梯度爆炸（Exploding Gradient）｜AI 術語定義

完整說明

梯度爆炸是深度學習中另一種常見的問題，與梯度消失相反。它指的是在反向傳播過程中，梯度信號逐層放大，導致權重更新過大，模型訓練不穩定甚至崩潰。梯度爆炸通常發生在循環神經網路（RNN）中，尤其是在處理長序列的文本時。

梯度是模型參數的變化率，用於指導模型權重的更新方向和幅度。在反向傳播過程中，梯度從輸出層向輸入層逐層傳遞，用於計算每一層的權重梯度。如果梯度在傳遞過程中變得非常大，那麼權重更新就會變得非常劇烈，導致模型訓練不穩定。

梯度爆炸的主要原因是權重的指數級增長。在反向傳播過程中，每一層的梯度都需要乘以該層的權重。如果權重的值很大，那麼梯度在經過多層網路後就會變得非常大。尤其是在循環神經網路中，由於權重在時間步之間共享，梯度可能會在時間步之間不斷累積，導致梯度爆炸。

例如，如果一個循環神經網路的權重值為2，每層的梯度都乘以2，那麼梯度在經過10層後就會變得非常大，導致權重更新過大。

此外，網路的深度也會加劇梯度爆炸問題。網路越深，梯度需要經過的層數越多，梯度放大的程度就越大。因此，訓練非常深的網路時，梯度爆炸問題會更加嚴重。

梯度爆炸問題會影響深度學習模型在各種實際應用中的性能。例如，在自然語言處理中，如果使用循環神經網路（RNN）處理長序列的文本，梯度爆炸問題會導致模型訓練不穩定，甚至崩潰。這會影響模型在文本分類、機器翻譯等任務中的性能。

在語音辨識中，如果使用循環神經網路（RNN）處理語音信號，梯度爆炸問題會導致模型訓練不穩定，甚至崩潰。這會影響模型在語音辨識任務中的性能。

為了緩解梯度爆炸問題，研究人員提出了許多方法，例如梯度裁剪、權重正則化等。這些方法可以有效地限制梯度的大小，從而提高模型的穩定性。

梯度爆炸只發生在循環神經網路中： 雖然梯度爆炸在循環神經網路中更為常見，但它也可能發生在其他类型的網路中，尤其是在使用较大的学习率时。
梯度爆炸意味著模型完全無法學習： 梯度爆炸並不意味著模型完全無法學習，而是指權重更新過大，導致模型訓練不穩定。模型仍然可以學習到一些特徵，但性能可能受到限制。
梯度裁剪可以完全解決梯度爆炸問題： 梯度裁剪可以有效地緩解梯度爆炸問題，但並不能完全解決。在某些情況下，梯度裁剪可能會導致模型性能下降。
梯度消失和梯度爆炸是同一個問題： 梯度消失和梯度爆炸是兩個不同的問題。梯度消失是指梯度變得非常小，而梯度爆炸是指梯度變得非常大。雖然它們都可能影響模型的訓練，但它們的原因和解決方法不同。

延伸學習

想看梯度爆炸的完整影片教學？前往美第奇 AI 學院