學習率調度策略 是什麼?

Learning Rate Schedule — 學習率調度策略 的完整解釋

根據訓練進度動態調整學習率的策略,能幫助模型在初期快速收斂,並在後期穩定尋找全域理想解。

核心概念

在訓練神經網路的過程中,優化演算法負責根據損失函數的梯度來更新模型的參數,而學習率則是控制每次參數更新幅度的關鍵超參數。如果在整個訓練週期中都維持固定不變的學習率,模型往往會面臨兩難的困境:若學習率設定過大,雖然在訓練初期能夠快速降低損失,但在接近理想解時會因為步伐過大而來回震盪,甚至越過全域最低點導致發散;反之,若學習率設定過小,雖然可以穩定收斂,但訓練過程會變得極度漫長,且模型容易被困在局部理想解或鞍點中無法逃脫。

學習率排程正是為了化解這種矛盾而提出的動態調整策略。它的核心概念是基於訓練的進度、當前的效能表現或是預先設定的數學函數,在訓練的不同階段自動改變學習率的大小。一般而言,理想的訓練過程應該在初期使用較大的學習率,讓模型能夠大步跨越平坦的誤差曲面,快速探索不同的參數空間;而到了訓練中後期,隨著模型逐漸接近理想解,系統會自動調降學習率,讓參數更新的步伐變得細微而謹慎,這就像是在高爾夫球運動中,開球時會用力將球擊向果嶺方向,而到了果嶺上則會換上推桿,輕柔而精確地將球推入洞中。透過這種動態調整機制,學習率排程不僅能夠顯著縮短模型收斂所需的時間,還能幫助模型尋找到更深、更平穩的極小值,進而提升其在未知資料上的泛化能力。

運作原理

學習率排程的運作依賴預先定義的衰減函數或監控機制。傳統的實作方式是步階衰減,工程師會設定明確的觸發節點,例如每經過固定的訓練週期,就將當前的學習率乘以一個小於一的常數因子。這種方法雖然簡單有效,但階梯狀的突然下降有時會導致訓練曲線出現不自然的斷層。為了解決這個問題,指數衰減與多項式衰減被廣泛應用,這些函數能夠讓學習率隨著訓練步數的增加呈現平滑連續的下降趨勢,避免參數更新幅度發生劇烈突變。

近年來,基於餘弦函數的退火排程成為了許多先進模型的標準配置。餘弦退火利用餘弦曲線的特性,讓學習率在訓練初期緩慢下降,中段加速衰減,到了末期又轉為平緩,這種曲線與模型收斂的自然節奏相當契合。有些進階的餘弦排程還會結合重啟機制,當學習率衰減到接近零時,會突然將其拉回初始的高水位,這有助於模型從當前的局部理想解中跳脫出來,探索參數空間中的其他可能性,並產生多個表現優異的候選模型。

除了預先設定軌跡的排程外,還有一種基於效能監控的自適應排程策略。系統會持續追蹤模型在驗證集上的表現指標,如果連續多個週期都沒有顯著改善,系統就會判定模型已經陷入瓶頸,並自動觸發學習率減半的操作。這種依據實際回饋來調整步伐的機制,能夠適應不同複雜度的資料集,大幅減少手動調校超參數的負擔,是實務上極為實用的運作模式。

實際應用

在電腦視覺領域,學習率排程已經成為訓練深層卷積神經網路的標準作業程序。以訓練大規模影像分類資料集為例,若不套用任何排程策略,模型通常會在達到某個精確度後便停滯不前。而一旦在此時觸發學習率下降,往往能立刻看到驗證集錯誤率的大幅降低,這顯示模型正在進行更精細的特徵學習。許多經典的網路架構論文中,都明確記載了特定的學習率衰減時機,這些經驗法則至今仍被廣泛遵循。

在自然語言處理任務中,特別是針對 Transformer 架構的訓練,學習率排程的設定更為講究。由於 Transformer 內部缺乏卷積層的局部偏置歸納特性,其誤差曲面更為崎嶇。因此,研究人員通常會採用反比例平方根排程,讓學習率在達到峰值後,呈現漸進式的緩慢下降,以確保注意力機制能夠平穩地學習到詞彙之間的長距離相依關係。

此外,在遷移學習的微調階段,學習率排程也扮演著重要角色。當我們使用預訓練模型來適應下游任務時,通常會希望保留模型已經學到的豐富表徵。因此,微調階段不僅初始學習率會設定得比從頭訓練時低很多,其衰減排程也會更加陡峭,確保參數只在小範圍內進行微調,防止發生災難性遺忘現象。這顯示學習率排程必須根據不同的應用場景進行量身打造,才能發揮預期的效用。

常見誤區

在設定學習率排程時,容易犯的錯誤是衰減速度過快。如果下降曲線過於陡峭,學習率會在模型尚未充分探索參數空間、還未收斂到理想區域前,就降到接近零的程度。這會導致模型陷入提早停止學習的狀態,最終表現遠低於預期。這通常發生在設定總訓練步數時估算錯誤,或是衰減因子的設定不合理。

另一個極端則是學習率衰減過慢或根本不衰減。在這種情況下,即便模型已經到達了全域理想解附近的狹小谷底,過大的更新步伐依然會把參數不斷彈出這個理想區域。反映在訓練曲線上,就是損失函數遲遲無法收斂,在某個區間內呈現劇烈的高頻震盪,這不僅浪費運算資源,更無法獲得穩定的模型權重。

還有一個常見的誤區,是混淆了學習率排程與優化器內部機制的運作。例如,優化器本身就會根據過去的梯度一階與二階動差來動態調整每個參數的更新幅度。有些開發者誤以為使用了帶有動差的優化器就不再需要外部的學習率排程。事實上,優化器內部的自適應機制與外部的全域學習率排程是相輔相成的。全域學習率控制的是整體的基礎步伐上限,適當的排程能夠幫助模型更好地收斂,兩者結合往往能達到良好的訓練效果。

與相關技術的比較

學習率排程常被拿來與自適應優化器進行比較,但兩者的作用層級並不相同。自適應優化器關注的是為模型中數以萬計的每個單一參數計算獨立的更新幅度,解決的是不同維度間梯度大小不均的問題。而學習率排程則是對所有參數套用統一的縮放比例,負責控制整個訓練過程在時間軸上的宏觀節奏。在實務上,現代深度學習框架通常容許這兩者同時運作,產生互相加乘的疊加效應。

若將學習率排程與權重衰減進行比較,這兩項技術雖然名字中都有衰減,但機制完全無關。權重衰減是一種正規化技術,藉由在損失函數中加入對大權重的懲罰項來防止模型過度擬合;而學習率衰減純粹是控制優化演算法前進步伐大小的機制。

與早停機制相比,兩者都是為了獲得更好的模型而對訓練流程進行的干預。早停機制是在模型開始出現過度擬合跡象時,強制終止訓練;而基於監控的學習率排程則是在模型遇到效能瓶頸時,嘗試改變步伐以尋求突破。兩者經常被組合使用,系統通常會先嘗試降低學習率來挽救停滯的效能,如果經過多次降速後依然無效,才會觸發早停機制,這種漸進式的策略已經成為許多自動化訓練系統的標準配置。

學習率調度策略 在 iPAS 考試中的重點

根據歷年統計,學習率調度策略 相關題目 屬於未分類考範圍。

常見問題

資料來源

← 回到 學習率調度策略 快查頁

測驗你對 學習率調度策略 的理解

透過模擬考系統檢驗學習成果

開始測驗