GD（梯度下降）是什麼？完整定義與解說

Q: 學習率越大越好嗎？

不是，太大會震盪甚至發散。

iPAS 高頻最佳化模型訓練

術語快查

搜尋意圖： 如果你在找「梯度下降是什麼」、「梯度下降會怎麼考」或「梯度下降和相近概念差在哪」，先看這頁的定義、考點定位與延伸比較。

TL;DR： 梯度下降是一種透過反覆運算，沿損失函數的梯度方向，逐步逼近損失函數最小值的演算法

實用情境： 適合用在 iPAS 複習、面試快查與閱讀 AI 文章時快速校正概念邊界。

下一步： 先讀完定義，再往下看延伸比較與對應工具，把概念轉成實際應用。

你有沒有想過，模型是怎麼一步一步把錯誤壓下來的？

你可以把梯度下降想成沿著山坡往低處走的過程。它會根據損失函數的斜率調整參數，讓模型慢慢往更好的答案靠近。

你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

容易混淆

梯度下降 vs 隨機梯度下降 梯度下降每次看整批資料隨機梯度下降每次看較小的資料片段最關鍵的區別是穩定慢，還是快但抖

梯度下降 vs 最小平方法 梯度下降是迭代式優化最小平方法是直接求解析解的路徑最關鍵的區別是反覆逼近，還是一次算出來

記住這句就好

沿著最陡方向往山谷走，慢慢修正。

實際案例

線性回歸 你要找一條最適合資料的直線時，梯度下降可以一點一點把參數調到更好的位置。

神經網路訓練 深度學習裡的大多數權重更新，本質上都是梯度下降在工作。

算法與應用

核心三件事是梯度、學習率和損失函數，這三個要一起看。步伐太大會震盪，太小會很慢，所以調學習率幾乎是每次訓練都會做的事。

情境判斷

Q1： 損失一直掉得很慢，第一個會懷疑什麼？ → 先看學習率是不是太小，或者特徵和模型是否太保守。

Q2： 訓練到一半損失忽上忽下，會想到什麼？ → 可能學習率太高，或批次太小導致更新太晃。

iPAS 考題

出題方向：常考梯度下降的概念、學習率影響，以及和最小平方法的差異。 題目： 某模型在訓練時，透過反覆修正參數來讓損失函數下降，這最符合哪個概念？ → 答案： 梯度下降。它的核心就是根據梯度方向持續更新參數，讓誤差逐步變小。

常見問題

梯度下降一定會找到全域最小值嗎？

不一定，尤其在非凸問題上可能卡在局部最小值或鞍點。

學習率越大越好嗎？

不是，太大會震盪甚至發散。

什麼時候要用批次梯度下降？

當你想要比較穩定的更新，而且資料量和算力允許時。

梯度下降（Gradient Descent）是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

iPAS 考題

常見問題

立即測驗

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

iPAS 考題

常見問題

相關術語

延伸學習

看常見比較

找對應工具

立即測驗

資料來源與參考依據