---
title: "最佳化器狀態（Optimizer State）"
slug: optimizer-state
language: zh-TW
source: https://aiterms.tw/terms/optimizer-state
updated_at: 2026-07-04
tags: [模型訓練, 最佳化, 深度學習, 大型語言模型, source:ipas]
ipas_term: true
---

# 最佳化器狀態（Optimizer State）

指機器學習訓練過程中，最佳化演算法為更新模型權重所儲存的動量、變異數等歷史計算數值。

## 完整說明

最佳化器狀態是一種在神經網路訓練期間，由最佳化演算法維護的內部資料結構，用於記錄梯度的一階動量、二階動量或學習率縮放因子等資訊，能夠協助模型更穩定且快速地收斂，常見應用包括 Adam、RMSprop 等演算法的狀態保存與接續訓練。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 為什麼大型語言模型訓練時經常出現記憶體不足的錯誤，這與最佳化器狀態有關嗎？

大型語言模型訓練時的記憶體不足錯誤，絕大多數情況下都與最佳化器狀態密切相關。在混合精度訓練中，為了維持數值穩定性，最佳化器會保留單精度的模型權重副本、一階動量與二階動量。這導致最佳化器狀態所佔用的記憶體量通常遠大於模型本身參數所佔空間。因此，當模型參數規模龐大時，光是儲存這些歷史狀態就能輕易耗盡顯示卡的全部記憶體資源。

### 如果在模型微調階段遺失了最佳化器狀態，訓練還能繼續進行嗎？

如果是接續先前的訓練任務以達到更好的收斂狀態，遺失最佳化器狀態會導致損失值瞬間飆高，模型必須重新累積動量資訊，這會浪費大量的計算資源與時間。然而，如果您是載入預訓練模型進行全新下游任務的微調，由於目標函數與資料分佈已經改變，原本的歷史梯度方向不再適用，此時不載入最佳化器狀態並重新初始化，反而是正確且常見的做法，訓練仍然可以順利進行並收斂。

### 業界有哪些常見的技術可以用來減少最佳化器狀態的記憶體佔用？

業界發展出多種記憶體最佳化技術。最知名的是微軟提出的 ZeRO 演算法，它將龐大的最佳化器狀態切分成小區塊，分散儲存在叢集內的不同運算節點上，打破了單機記憶體的限制。另一種常見方法是使用八位元最佳化器，透過量化技術將原本的狀態壓縮，大幅減少記憶體佔用。此外，採用 Adafactor 等記憶體效率較高的變體演算法，也能有效降低狀態緩衝區的需求。

---

來源：https://aiterms.tw/terms/optimizer-state
快查頁：https://aiterms.tw/terms/optimizer-state
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-optimizer-state