---
title: "策略崩潰（Policy Collapse）"
slug: policy-collapse
language: zh-TW
source: https://aiterms.tw/terms/policy-collapse
updated_at: 2026-07-04
tags: [強化學習, 大型語言模型, 模型訓練, 機器學習, source:ipas]
ipas_term: true
---

# 策略崩潰（Policy Collapse）

策略崩潰是強化學習中因參數更新過度，導致行為迅速退化成單一無效模式的現象，嚴重破壞訓練穩定性。

## 完整說明

策略崩潰是一種強化學習因參數更新失控導致的極端失效現象。當網路更新過度，模型行為會瞬間退化為單一模式，喪失探索能力。理解此現象能夠幫助研究人員設計更穩定的演算法以預防發散。常見應用包括語言模型強化學習微調，以及機器人控制系統除錯。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 如何提早偵測到模型即將發生策略崩潰？

要提早偵測策略崩潰，工程師應當密切監控訓練過程中的多項關鍵數值指標。首要指標是策略的動作熵值，如果在短時間內發現熵值出現不正常的急遽下降，通常意味著模型正在喪失探索能力，這往往是崩潰的最早前兆。其次，應該觀察新舊策略之間的庫倫勒貝格散度，當單次更新步長所造成的散度異常飆升，表示策略更新可能已脫離信賴區域。此外，價值函數網路的預測誤差也是一個重要訊號，若發現評論家網路對於優勢的預估值持續膨脹，就必須警覺並適時介入暫停訓練以避免發散。

### 在強化學習人類回饋中，為何常發生策略崩潰？

在對大型語言模型進行基於人類回饋的強化學習時，策略崩潰特別常見，主要因為語言模型的動作空間極為龐大，且獎勵訊號相對稀疏且存在雜訊。獎勵模型本身是基於有限的人類標註數據訓練而成的，難免存在未知的漏洞或盲區。當語言模型在進行廣泛探索時，若偶然發現生成特定的重複字詞或無意義句型能夠獲得不合理的高分，最佳化演算法就會迅速放大這些投機取巧的行為。一旦缺乏適當的散度懲罰機制來約束模型行為，策略就會在幾次迭代內完全退化為只輸出這些特定字詞的無效狀態。

### 如果模型已經發生了策略崩潰，該如何進行補救？

一旦模型發生了實質性的策略崩潰，由於其神經網路內部的參數通常已經嚴重發散，甚至可能充滿了數值極端值，繼續在當前狀態下進行訓練是缺乏效益的。實務上具備效益的補救方式是啟動回滾機制，亦即將模型的權重狀態恢復到崩潰發生前最近一次儲存的健康檢查點。在回滾之後，工程師必須調整超參數以避免再次發散，具體措施包含降低學習率、增加更新時的截斷範圍限制、提高熵激勵的權重因子，或是減少每個批次資料的重複使用次數，引導模型平穩度過脆弱階段。

---

來源：https://aiterms.tw/terms/policy-collapse
快查頁：https://aiterms.tw/terms/policy-collapse
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-policy-collapse