梯度消失（Vanishing Gradient）｜AI 術語定義

完整說明

梯度消失是深度學習中一個常見的問題，尤其是在訓練非常深的網路時。它指的是在反向傳播過程中，梯度信號逐層衰減，導致淺層網路的權重更新非常緩慢甚至停止更新。這會使得模型難以學習到有效的特徵，從而影響模型的整體性能。

梯度是模型參數的變化率，用於指導模型權重的更新方向和幅度。在反向傳播過程中，梯度從輸出層向輸入層逐層傳遞，用於計算每一層的權重梯度。如果梯度在傳遞過程中變得非常小，那麼淺層網路的權重更新就會變得非常緩慢，導致模型無法學習到有效的特徵。

梯度消失的主要原因是鏈式法則。在反向傳播過程中，每一層的梯度都需要乘以該層的激活函數的導數。如果激活函數的導數在某些區域非常小，那麼梯度在經過多層網路後就會變得非常小。常見的激活函數，如Sigmoid和Tanh，在輸入值較大或較小時，其導數接近於零，這會導致梯度消失問題。

例如，Sigmoid函數的導數範圍在0到0.25之間。如果一個網路有10層，每層的梯度都乘以一個小於0.25的數，那麼梯度在經過10層後就會變得非常小，導致淺層網路的權重更新非常緩慢。

此外，網路的深度也會加劇梯度消失問題。網路越深，梯度需要經過的層數越多，梯度衰減的程度就越大。因此，訓練非常深的網路時，梯度消失問題會更加嚴重。

梯度消失問題會影響深度學習模型在各種實際應用中的性能。例如，在自然語言處理中，如果使用循環神經網路（RNN）處理長序列的文本，梯度消失問題會導致模型難以學習到長距離的依賴關係。這會影響模型在文本分類、機器翻譯等任務中的性能。

在電腦視覺中，如果使用卷積神經網路（CNN）處理圖像，梯度消失問題會導致模型難以學習到圖像的低層次特徵。這會影響模型在圖像識別、目標檢測等任務中的性能。

為了緩解梯度消失問題，研究人員提出了許多方法，例如使用ReLU激活函數、批量歸一化、殘差連接等。這些方法可以有效地改善梯度在網路中的傳播，從而提高模型的性能。

梯度消失只發生在深層網路中： 雖然梯度消失在深層網路中更為常見，但它也可能發生在淺層網路中，尤其是在使用Sigmoid或Tanh等激活函數時。
梯度消失意味著模型無法學習： 梯度消失並不意味著模型完全無法學習，而是指淺層網路的權重更新非常緩慢。模型仍然可以學習到一些特徵，但性能可能受到限制。
使用ReLU激活函數可以完全解決梯度消失問題： ReLU激活函數可以有效地緩解梯度消失問題，但並不能完全解決。在某些情況下，ReLU激活函數也可能導致梯度消失，例如在輸入值為負數時。
梯度消失和梯度爆炸是同一個問題： 梯度消失和梯度爆炸是兩個不同的問題。梯度消失是指梯度變得非常小，而梯度爆炸是指梯度變得非常大。雖然它們都可能影響模型的訓練，但它們的原因和解決方法不同。

延伸學習

想看梯度消失的完整影片教學？前往美第奇 AI 學院