---
title: "策略崩潰（Policy Collapse）"
slug: policy-collapse
language: zh-TW
source: https://aiterms.tw/learning/what-is-policy-collapse
updated_at: 2026-07-04
tags: [強化學習, 大型語言模型, 模型訓練, 機器學習, source:ipas]
ipas_term: true
type: deep-dive
---

# 策略崩潰 是什麼？

> 策略崩潰是強化學習中因參數更新過度，導致行為迅速退化成單一無效模式的現象，嚴重破壞訓練穩定性。

## 核心概念

在探討人工智慧與強化學習的進階領域時，策略崩潰代表著一種嚴重的訓練不穩定狀態。強化學習的核心在於訓練一個智能體，使其能夠在特定環境中觀察狀態並採取行動，藉此最大化長期的累積獎勵。這個決定在什麼狀態下該採取什麼行動的函數或映射，我們稱之為策略。策略可以是確定性的，也就是在給定狀態下永遠輸出相同的動作；也可以是隨機性的，亦即輸出各種動作的機率分布。理想的訓練過程會逐漸調整策略的參數，使高獎勵動作的機率提高，低獎勵動作的機率降低。

然而，當模型經歷所謂的策略崩潰時，這個本應循序漸進的最佳化過程會遭遇災難性的破壞。具體而言，策略網路的權重會在幾次迭代內發生劇烈變化，導致模型輸出極端偏頗或完全無意義的結果。在連續控制任務中，這可能表現為智能體無論面臨什麼狀態，都只會輸出單一的最大扭力或固定方向。在離散動作空間或大型語言模型的訓練中，則可能表現為語言模型不斷重複同一個字詞，完全喪失生成連貫上下文的能力。

這現象的本質是策略的熵值急遽下降至趨近於零，意味著模型失去了對動作空間的探索能力，並且錯誤地對某個特定且通常是次優的動作產生了極高的信心。一旦發生這種情況，由於該策略不再嘗試其他可能性，就無法收集到具有差異性的新數據，導致訓練過程陷入死胡同，難以自行恢復。因此，理解並預防這類現象的發生，是訓練深度強化學習模型時不可或缺的環節。

從更高維度的視角來看，這反映了神經網路在非穩態資料分布下的脆弱性。在監督式學習中，資料集是固定的，模型只需針對固定目標進行擬合；但在強化學習中，模型所收集到的訓練資料取決於模型自身的當前策略。一旦策略開始退化，收集到的資料品質也會同步劣化，形成一個惡性循環，最終加速並導致完全的發散狀態。

## 運作原理

要深入理解策略崩潰的成因，必須探究強化學習演算法的數學基礎與最佳化機制。在策略梯度方法中，我們透過計算預期獎勵對策略參數的梯度來更新模型。為了提高訓練效率，現代演算法如近端策略最佳化通常允許多次重複使用同一批收集到的數據來進行模型更新。這種做法雖然提高了數據使用率，但同時也帶來了極大的風險。

當模型根據當前優勢函數對策略進行更新時，如果更新步長過大，新的策略將會偏離收集數據時的舊策略過遠。一旦新舊策略差異過大，基於舊數據所計算出來的優勢估計就不再準確。如果模型過度信任這些已經失效的優勢估計值，就可能將策略推向一個極端的參數空間。在數學表現上，這通常伴隨著舊策略與新策略之間的散度瞬間飆升。

在實際的深度學習運算中，這類現象通常與數值不穩定性高度相關。例如，當某個特定動作在某次迭代中偶然獲得了極高的優勢估計值，神經網路的梯度可能會將該動作的輸出機率推向極致。由於我們常使用特定函數來將網路輸出轉換為機率，這會導致網路輸出層的數值變得極大。隨之而來的是，其他動作的機率被壓縮至接近零，從而完全扼殺了策略的隨機性與探索空間。

在針對大型語言模型進行基於人類回饋的強化學習時，策略崩潰的運作機制更為複雜。語言模型的動作空間是整個詞彙表，高達數萬個選項。在調整這類巨型模型時，獎勵模型通常只提供針對整個句子的標量回饋。如果生成模型在尋找高獎勵路徑時，偶然發現某種特定的亂碼組合或是無意義的重複句型能夠騙過獎勵模型並獲得高分，模型就會迅速將機率質量集中在這些有問題的輸出上。為了抑制這種情況，研究人員通常會在目標函數中加入一個散度懲罰項，迫使訓練中的模型不要偏離初始的參考模型太遠。但如果這個懲罰項的權重設定不當，或者獎勵模型的評分出現漏洞，崩潰現象依然會以驚人的速度發生。

此外，價值函數網路的過度估計也是推波助瀾的關鍵因素之一。在許多演算法架構中，評論家網路負責評估狀態的價值。如果評論家網路對某個未知狀態給出了極度不合理的高估值，演員網路就會不顧一切地調整策略以達到該狀態。當這種錯誤的訊號在多層神經網路中被放大時，原本平穩的梯度下降過程就會轉變為劇烈的參數震盪，最終導致策略全面瓦解。

## 實際應用

雖然策略崩潰本身是一種應當避免的失敗模式，但對其特徵與前兆的深入研究，已經在人工智慧的工程實踐中衍生出許多重要的應用與防禦機制。工程師們將防範這類現象作為設計新演算法與優化現有系統的重要基準。

在當前最受矚目的大型語言模型開發中，預防策略崩潰是模型對齊階段的核心任務之一。當模型進入強化學習微調階段時，工程師必須嚴密監控模型的輸出多樣性以及多個關鍵指標，包含動作機率的熵值與網路間的散度。在實際的工業級訓練框架中，通常會實作自動中斷機制。一旦系統偵測到散度在單一訓練批次中超過預設的安全閾值，或者動作熵值出現斷崖式下跌，訓練流程就會自動暫停，並回滾到前一個穩定的檢查點。這種監控應用的存在，使得訓練耗資巨大的基礎模型變得更加安全可靠。

在自動駕駛與機器人控制等實體應用場景中，對策略崩潰的防範更是攸關設備安全。在模擬環境中訓練機器人步態時，如果發生崩潰，機器人可能會陷入不斷原地抽搐或關節鎖死的狀態。因此，研究人員在設計獎勵函數時，不僅會給予完成任務的獎勵，還會加入維持動作平滑性與能量效率的懲罰項。同時，在演算法層面會應用更嚴格的更新幅度限制機制。這些技術的應用確保了機器人在學習複雜動作時，其行為始終保持在合理且可預測的範圍內。

此外，在金融交易演算法的強化學習應用中，策略崩潰可能導致系統不斷發出相同的買進或賣出指令，引發嚴重的資金風險。為了應對這個問題，開發者會在動作空間中加入硬性約束與過濾器，確保即使神經網路內部發生了異常發散，實際輸出的交易決策依然符合風險控管的基本規則。同時，透過分析異常狀態發生的時機，開發團隊可以反向診斷出市場模擬環境中不合理或過於簡化的假設，進而改善模擬器的真實度與穩定性。

## 常見誤區

在學術研究與工程實踐中，許多從業者對於策略崩潰的理解存在一些根本性的偏誤，這些誤區往往會導致除錯方向偏離，浪費大量的運算資源。

首先，最常見的混淆是將強化學習中的策略崩潰與生成對抗網路中的模式崩潰混為一談。雖然兩者在結果上都表現為模型輸出多樣性的喪失，但其根本機制截然不同。模式崩潰源於生成器與判別器之間的動態博弈失衡，導致生成器發現並專注於少數能欺騙判別器的樣本；而策略崩潰則主要源於強化學習更新步伐的失控與估計優勢函數的嚴重偏差。解決前者的方案通常著眼於改良網路架構或對抗損失函數，而解決後者則需要嚴格控制更新信賴區域以及增強探索機制。

另一個常見的誤區是認為只要不斷調低學習率，就可以完全避免這種崩潰現象。雖然較小的學習率確實能使參數更新變得較為平緩，但這並非適用於所有情況的萬靈丹。如果問題的根源在於獎勵函數的設計缺陷或是價值評估網路發散，即便學習率極低，策略依然會朝著錯誤的方向緩慢累積變化，最終在某個臨界點引發突然的崩潰。單純依賴降低學習率，往往只會無意義地延長訓練時間，而無法解決根本的穩定性問題。

許多研究者也常誤以為增加訓練數據的收集量就能解決此問題。在監督式學習中，增加數據量幾乎總是有助於提升模型的泛化能力與穩定性；但在強化學習中，如果當前策略已經開始退化，那麼模型收集到的海量新數據也只會是毫無價值的重複狀態。這時投入更多算力去進行環境互動，實質上無法產生正面效益。正確的做法應該是重置模型狀態，或者引入外部的專家數據進行引導。

最後，有部分從業者將偶發的效能下降與真正的崩潰現象混淆。強化學習的訓練曲線本來就充滿波動，短期的獎勵值下降或是策略表現倒退是探索過程中的正常現象。真正的崩潰具有不可逆性與極端性，模型會徹底喪失之前學到的所有技能。如果工程師對正常的效能波動過度反應，頻繁中斷訓練或調整超參數，反而會阻礙模型找到全域最佳解的過程。

## 與相關技術的比較

要建構更具韌性的深度學習系統，我們需要將策略崩潰與其他相關的模型退化與最佳化困難進行清晰的對比與界定。

首先是與災難性遺忘的比較。災難性遺忘通常發生在持續學習或多任務學習的情境中，當模型開始學習新任務時，會迅速且不可逆地遺忘過去已經學會的舊任務知識。兩者的區別在於觸發條件與表現形式。災難性遺忘是由於參數空間的覆寫所引起，模型在面對舊任務時表現極差，但仍能有效執行新任務；而策略崩潰則發生在單一任務的訓練過程中，導致模型對當前任務完全失去解決能力，所有的有意義行為都蕩然無存。

其次是與獎勵駭客行為的對比。在獎勵駭客行為中，模型確實找到了一種方法來最大化給定的獎勵訊號，但這種方法違背了人類設計獎勵函數的初衷。例如，一個清潔機器人可能會故意把垃圾踢出感測器範圍來完成清潔任務。在獎勵駭客發生時，模型並沒有損壞，它只是過度聰明地利用了系統漏洞。相反地，策略崩潰是最佳化過程本身的數學機制崩潰，模型往往連表面的高獎勵都無法維持，而是陷入一種無意義的輸出迴圈。

再來是過度擬合的概念差異。在傳統的機器學習框架中，過度擬合指的是模型將訓練資料中的雜訊當作特徵記住，導致其在未見過的測試數據上表現不佳。過度擬合的模型仍然是一個功能完整的數學映射，只是缺乏泛化能力。然而，當強化學習模型經歷策略崩潰時，它甚至連訓練環境本身都無法應付，其神經網路內部的權重可能已經發散到出現非數值等數學錯誤。因此，處理過度擬合我們常使用權重衰減或丟棄法，但處理崩潰現象則必須訴諸於梯度裁剪或學習率預熱等介入手段。

最後，對比於梯度消失或爆炸問題。梯度問題屬於最底層的反向傳播數值問題，發生在任何深度的神經網路中，阻礙模型進行有效的參數更新。策略崩潰雖然可能由梯度爆炸引發，但它更偏向於一種演算法層面的動態失衡。即使梯度本身處於合理範圍，只要更新策略使得新的行為分布完全脫離了舊行為的覆蓋範圍，重要性採樣的權重就會失效，進而導致目標函數的計算完全錯誤並引發崩潰。因此，防範這類高階崩潰需要比單純的梯度截斷更為複雜的演算法設計。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 如何提早偵測到模型即將發生策略崩潰？

要提早偵測策略崩潰，工程師應當密切監控訓練過程中的多項關鍵數值指標。首要指標是策略的動作熵值，如果在短時間內發現熵值出現不正常的急遽下降，通常意味著模型正在喪失探索能力，這往往是崩潰的最早前兆。其次，應該觀察新舊策略之間的庫倫勒貝格散度，當單次更新步長所造成的散度異常飆升，表示策略更新可能已脫離信賴區域。此外，價值函數網路的預測誤差也是一個重要訊號，若發現評論家網路對於優勢的預估值持續膨脹，就必須警覺並適時介入暫停訓練以避免發散。

### 在強化學習人類回饋中，為何常發生策略崩潰？

在對大型語言模型進行基於人類回饋的強化學習時，策略崩潰特別常見，主要因為語言模型的動作空間極為龐大，且獎勵訊號相對稀疏且存在雜訊。獎勵模型本身是基於有限的人類標註數據訓練而成的，難免存在未知的漏洞或盲區。當語言模型在進行廣泛探索時，若偶然發現生成特定的重複字詞或無意義句型能夠獲得不合理的高分，最佳化演算法就會迅速放大這些投機取巧的行為。一旦缺乏適當的散度懲罰機制來約束模型行為，策略就會在幾次迭代內完全退化為只輸出這些特定字詞的無效狀態。

### 如果模型已經發生了策略崩潰，該如何進行補救？

一旦模型發生了實質性的策略崩潰，由於其神經網路內部的參數通常已經嚴重發散，甚至可能充滿了數值極端值，繼續在當前狀態下進行訓練是缺乏效益的。實務上具備效益的補救方式是啟動回滾機制，亦即將模型的權重狀態恢復到崩潰發生前最近一次儲存的健康檢查點。在回滾之後，工程師必須調整超參數以避免再次發散，具體措施包含降低學習率、增加更新時的截斷範圍限制、提高熵激勵的權重因子，或是減少每個批次資料的重複使用次數，引導模型平穩度過脆弱階段。

---

深度解說頁：https://aiterms.tw/learning/what-is-policy-collapse
快查頁：https://aiterms.tw/terms/policy-collapse
最後更新：2026/07/04