---
title: "學習率預熱策略（Warmup Schedule）"
slug: warmup-schedule
language: zh-TW
source: https://aiterms.tw/terms/warmup-schedule
updated_at: 2026-07-04
tags: [模型訓練, 最佳化, 大型語言模型, source:ipas]
ipas_term: true
---

# 學習率預熱策略（Warmup Schedule）

在模型訓練初期逐漸增加學習率的策略，可防止模型權重在訓練剛開始時因過大的梯度更新而崩潰或發散。

## 完整說明

學習率預熱是一種在模型訓練起始階段將學習率由小逐漸增加至目標值的技術，用於減少初始隨機權重帶來的劇烈梯度波動，能夠穩定前期的訓練過程並改善最終收斂效果，常見應用包括 Transformer 架構模型及大規模分散式訓練系統。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 預熱步數一般應該設定為多少比較合適？

預熱步數的設定並不存在絕對通用的標準答案，通常取決於資料集大小、模型架構複雜度與每次訓練的批次大小。一般實務上，常見的做法是將總訓練步數的一小部分比例設定為預熱期，或是涵蓋最初的少數幾個完整資料走訪週期。若是使用極大的批次大小進行分散式叢集訓練，則需要相對較長的預熱時間來確保全域梯度的穩定性，開發者需透過反覆實驗來尋找適合當前專案的配置參數。

### 如果不使用學習率預熱會發生什麼後果？

對於淺層或結構單純的神經網路，不使用預熱機制可能只會導致初期收斂稍微緩慢。但對於參數龐大且結構複雜的模型（如 Transformer），若省略預熱設計，模型在接收第一批資料時所產生的巨大初始梯度，會立刻對隨機初始化的權重進行過度劇烈的破壞性更新。這容易引發數值計算上的不穩定、梯度爆炸或模式徹底崩潰，導致損失函數在訓練的前幾步就直接發散，造成訓練中斷。

### 預熱機制可以與任何學習率衰減策略同時使用嗎？

預熱機制在系統設計上完全獨立於後續的學習率衰減策略，因此可以無縫地與各種排程演算法組合使用。常見的經典組合是「線性預熱搭配餘弦衰減」或是「線性預熱搭配線性衰減」。在這種組合模式中，學習率會在訓練初期先直線攀升至預設的最高點，順利完成預熱任務後，接著便將控制權交接給後續的衰減排程器，按照預定的曲線軌跡緩慢下降，形成一個具備完整生命週期的訓練節奏控制系統。

---

來源：https://aiterms.tw/terms/warmup-schedule
快查頁：https://aiterms.tw/terms/warmup-schedule
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-warmup-schedule