梯度下降(Gradient Descent)是什麼?

梯度下降是一種透過反覆運算,沿損失函數的梯度方向,逐步逼近損失函數最小值的演算法|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

英文
Gradient Descent
主題標籤
最佳化、模型訓練、數學基礎
考點定位
高頻・中級
最後更新
2026/06/17
梯度下降(Gradient Descent)是什麼? iPAS 高頻 最佳化模型訓練
術語快查

搜尋意圖: 如果你在找「梯度下降 是什麼」、「梯度下降 會怎麼考」或「梯度下降 和相近概念差在哪」,先看這頁的定義、考點定位與延伸比較。

TL;DR: 梯度下降是一種透過反覆運算,沿損失函數的梯度方向,逐步逼近損失函數最小值的演算法

實用情境: 適合用在 iPAS 複習、面試快查與閱讀 AI 文章時快速校正概念邊界。

下一步: 先讀完定義,再往下看延伸比較與對應工具,把概念轉成實際應用。

你有沒有想過,模型是怎麼一步一步把錯誤壓下來的?

你可以把梯度下降想成沿著山坡往低處走的過程。 它會根據損失函數的斜率調整參數,讓模型慢慢往更好的答案靠近。

你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。

容易混淆

梯度下降 vs 隨機梯度下降 梯度下降每次看整批資料 隨機梯度下降每次看較小的資料片段 最關鍵的區別是穩定慢,還是快但抖

梯度下降 vs 最小平方法 梯度下降是迭代式優化 最小平方法是直接求解析解的路徑 最關鍵的區別是反覆逼近,還是一次算出來

記住這句就好

沿著最陡方向往山谷走,慢慢修正。

實際案例

線性回歸 你要找一條最適合資料的直線時,梯度下降可以一點一點把參數調到更好的位置。

神經網路訓練 深度學習裡的大多數權重更新,本質上都是梯度下降在工作。

算法與應用

核心三件事是梯度、學習率和損失函數,這三個要一起看。 步伐太大會震盪,太小會很慢,所以調學習率幾乎是每次訓練都會做的事。

情境判斷

Q1: 損失一直掉得很慢,第一個會懷疑什麼? → 先看學習率是不是太小,或者特徵和模型是否太保守。

Q2: 訓練到一半損失忽上忽下,會想到什麼? → 可能學習率太高,或批次太小導致更新太晃。

iPAS 考題

出題方向:常考梯度下降的概念、學習率影響,以及和最小平方法的差異。 題目: 某模型在訓練時,透過反覆修正參數來讓損失函數下降,這最符合哪個概念? → 答案: 梯度下降。它的核心就是根據梯度方向持續更新參數,讓誤差逐步變小。

常見問題

梯度下降一定會找到全域最小值嗎?

不一定,尤其在非凸問題上可能卡在局部最小值或鞍點。

學習率越大越好嗎?

不是,太大會震盪甚至發散。

什麼時候要用批次梯度下降?

當你想要比較穩定的更新,而且資料量和算力允許時。