---
title: "繼任特徵（Successor Features）"
slug: successor-features
language: zh-TW
source: https://aiterms.tw/learning/what-is-successor-features
updated_at: 2026-07-04
tags: [強化學習, 遷移學習, 特徵工程, source:arxiv]
ipas_term: false
type: deep-dive
---

# 繼任特徵 是什麼？

> 繼任特徵是強化學習中的一種狀態表徵方法，用於解耦環境動態與獎勵函數，提升多任務學習效率。

## 核心概念

強化學習的核心目標是讓智能體在與環境互動的過程中，學習到能夠最大化長期累積獎勵的最佳策略。傳統的強化學習方法通常將環境的狀態轉移機率與任務的獎勵函數耦合在一起，這意味著如果任務的目標發生改變（即獎勵函數改變），智能體往往需要從頭開始重新學習策略。這種作法在單一任務中表現良好，但在面對多個相關任務或任務目標頻繁變動的場景時，會顯得非常缺乏效率。

為了解決這個問題，研究人員提出了繼任特徵的概念。繼任特徵是繼任表徵在連續狀態空間和函數近似領域的自然延伸。繼任表徵最早由神經科學家提出，用於解釋動物的學習行為，其核心思想是將狀態的表徵定義為未來預期會訪問到的狀態的折現頻率。在繼任特徵的框架下，我們假設環境的單步獎勵可以表示為環境狀態特徵的線性組合，其中狀態特徵捕捉了環境的物理屬性和動態規則，而線性組合的權重則代表了特定任務的偏好或目標。

基於這種線性獎勵的假設，狀態的價值函數可以被分解為兩個部分的內積：一個是狀態的繼任特徵，另一個是任務的權重向量。繼任特徵定義為從當前狀態出發，遵循某個特定策略，在未來所有時間步長內觀察到的狀態特徵的期望折現總和。這種分解方式帶來了極大的靈活性，因為繼任特徵完全依賴於環境的動態屬性（即狀態轉移機率）和智能體的策略，而與具體的獎勵權重無關。

當智能體在一個新的任務中面臨不同的獎勵設定時，只要環境的物理動態沒有發生根本性的改變，智能體就可以直接重用之前學習到的繼任特徵，只需要重新學習或推斷新任務的權重向量即可計算出新的價值函數。這種解耦機制使得智能體具備了遷移學習能力，能夠在微小改變的任務空間中適應，這對於需要在複雜多變現實世界中運作的自主系統來說是一個關鍵的理論框架。

## 運作原理

繼任特徵的運作原理建立在馬可夫決策過程和貝爾曼方程式的基礎之上。在標準的馬可夫決策過程中，一個任務由狀態空間、動作空間、狀態轉移機率、獎勵函數和折現因子組成。在繼任特徵的設定下，我們引入了一個額外的特徵函數，該函數將每一個狀態或狀態與動作的組合映射到一個多維的特徵向量上。這個特徵向量旨在捕捉環境中與決策相關的各種屬性。

我們進一步假設獎勵函數可以表示為該特徵向量與一個任務特定的權重向量的內積。這是一個簡化但相當有用的假設，因為在許多實際場景中，複雜的目標都可以分解為對不同子目標或環境特徵的偏好。在確立了這個假設之後，我們可以將傳統的動作價值函數重新推導。動作價值函數表示在給定狀態下採取某個動作，隨後遵循特定策略所能獲得的期望折現累積獎勵。

將獎勵函數的線性形式代入動作價值函數的定義中，由於期望運算元的線性性質，我們可以將權重向量提取到期望運算元的外部。留下的期望部分，即未來所有時間步長的折現特徵向量之和的期望值，這就是我們所定義的繼任特徵。因此，動作價值函數可以精確地表示為繼任特徵向量與任務權重向量的內積。

為了學習這個繼任特徵，我們可以利用類似於傳統時間差分學習的方法。由於繼任特徵本身也滿足一個類似於貝爾曼方程式的遞迴關係，我們可以使用深度神經網路作為函數近似器，並透過最小化時間差分誤差來訓練這個網路。具體來說，當前狀態和動作的繼任特徵，應該等於當前時間步長觀察到的單步特徵向量，加上折現因子乘以下一個狀態在給定策略下的期望繼任特徵。

這種學習過程可以透過標準的強化學習演算法來實現。重要的是，在訓練繼任特徵神經網路時，訓練的目標信號不再是單一的標量獎勵，而是一個多維的特徵向量。這意味著神經網路需要同時預測環境中多個特徵在未來的演變趨勢。一旦繼任特徵網路訓練完成，我們就可以透過廣義策略迭代等技術，結合不同的任務權重，生成適應新目標的策略，而無需重新進行大量的環境互動。

## 實際應用

繼任特徵在解決現實世界中多任務強化學習和遷移學習問題上具備潛力，特別是當任務環境共享相似的物理動態但具有不同的目標時。一個典型的應用場景是機器人控制。考慮一個需要在同一廠房內執行多種任務的移動機器人，例如將貨物搬運到不同的指定位置、避開特定類型的障礙物、或是以不同的速度巡邏。

在這些任務中，機器人的物理模型（如運動學和動力學約束）以及廠房的靜態佈局（如牆壁和通道的位置）是保持不變的。如果使用傳統的強化學習，機器人需要為每一個具體任務單獨訓練一個神經網路，這將耗費大量的時間和計算資源。採用繼任特徵方法，我們可以設計一組描述機器人狀態和環境交互的特徵。機器人透過在環境中探索，學習這些特徵的繼任表示，這相當於學習了一種對環境動態的理解。當面對一個新的任務時，操作員只需定義一個新的獎勵權重向量，機器人就能利用已學習的繼任特徵，計算出新任務的價值函數並導出相應的控制策略。

另一個應用領域是導航系統與路徑規劃。在複雜的交通網路中，駕駛者的目標可能因時因地而異。有時駕駛者希望找到距離最短的路徑，有時希望避開收費路段，有時則偏好特定類型的路線。我們可以將路段的屬性作為狀態特徵。導航系統透過歷史數據學習不同駕駛策略下的繼任特徵。當用戶輸入新的偏好權重時，系統可以為其計算適合路線，這展現了繼任特徵在處理多目標優化問題上的靈活性。

在遊戲人工智慧領域，繼任特徵也被用於開發能夠適應多種遊戲模式的非玩家角色。在許多策略遊戲中，獲勝的條件或得分機制可能會有不同的變體。如果非玩家角色能夠學習到遊戲世界中各種資源、單位和地形的預期未來變化，它就能在遊戲規則發生微調或遭遇不同戰略的玩家時，透過調整內部權重來改變自身的行為模式，從而展現出適應性。此外，在推薦系統中，用戶的長期偏好可以被視為獎勵權重，而內容的特徵變化可以被建模為繼任特徵，這為構建個性化的推薦模型提供了一種思路。

## 常見誤區

在學習和應用繼任特徵時，研究者和從業人員經常會遇到一些概念上的混淆。其中最普遍的一個誤區是認為繼任特徵可以解決所有類型的遷移學習問題。事實上，繼任特徵的有效性高度依賴於其核心假設，即不同任務之間必須共享相同的狀態轉移機率動態。如果環境的物理規律發生了改變，例如機器人更換了不同規格的馬達，或者導航環境中新增了原本不存在的限制，那麼之前學習到的繼任特徵將不再準確，直接重用會導致次優甚至錯誤的策略。

另一個常見的誤區與特徵空間的設計有關。許多人誤以為任何形式的狀態表徵都可以作為繼任特徵框架中的基礎特徵。然而，要讓繼任特徵發揮作用，基礎特徵必須具備足夠的表達能力，使得各種任務的獎勵函數都能被這些特徵的線性組合良好地近似。如果特徵提取設計得過於簡單或忽略了環境中的關鍵因素，那麼即使繼任特徵學習得非常完美，也無法準確還原複雜任務的價值函數。特徵工程在繼任特徵的應用中仍然扮演著重要的角色，通常需要領域專家的介入或依賴無監督表示學習方法來獲取高質量的特徵基底。

此外，關於廣義策略迭代的理解也常常存在偏差。廣義策略迭代允許我們將多個基於不同權重學習到的繼任特徵結合起來，以應對未見過的新任務。但這並不意味著組合出來的策略必定是新任務的最佳策略。廣義策略迭代提供的是一個效能下界保證，它確保在給定可用策略集合的情況下，我們能找到一個不比隨機選擇更差的策略。在某些情況下，如果預訓練的策略集合無法覆蓋新任務所需的狀態空間區域，效果可能會大打折扣。因此，在訓練初始策略集合時，確保探索的多樣性是重要的。

最後，學習繼任特徵本身相當於將標量的價值函數學習問題轉化為了向量的預測問題，增加了神經網路的輸出維度和學習難度。在處理高維度狀態空間時，繼任特徵網路的收斂速度可能會變慢，並且更容易受到時間差分學習中常見的不穩定性問題的影響。因此，在實踐中需要仔細調整學習率、目標網路更新頻率等超參數。

## 與相關技術的比較

要全面理解繼任特徵的地位，有必要將其與強化學習領域中的其他相關技術進行比較。首先是與標準模型無關強化學習的比較。標準方法如深度Q網路直接學習狀態或狀態動作對到標量價值的映射。這種方法的優點是概念簡單且在單一任務上容易優化，但缺點是任務特異性。一旦獎勵函數改變，網路的權重就必須重新調整，這在多任務設定下缺乏效率。繼任特徵保留了模型無關方法的計算效率，避免了構建完整環境模型的需求，同時透過分離動態和獎勵，引入了類似基於模型方法的靈活性。

這就引出了與基於模型強化學習的比較。基於模型的方法旨在學習一個前向模型，預測給定狀態和動作下的下一個狀態和獎勵。一旦擁有精確的模型，智能體就可以使用規劃算法來尋找最佳策略。基於模型的方法在理論上能夠應對獎勵函數的變化，因為規劃過程是在模型內部進行的。然而，在複雜的高維環境中，學習一個準確的全局狀態轉移模型是困難的，模型誤差的累積往往會導致長期規劃的失敗。繼任特徵提供了一個折衷方案，它不預測具體的下一個狀態，而是預測未來特徵的期望累積。這種宏觀層面的預測通常比微觀的單步狀態預測更容易學習，並且對模型誤差具有更好的容忍度。

另一種相關的技術是元強化學習。元學習的目標是訓練一個能夠利用少量經驗數據適應新任務的學習算法或模型。元強化學習通常需要從一個任務分布中取樣進行訓練，計算成本相對較高。相比之下，繼任特徵的訓練過程更加明確。如果我們能夠預先定義好一組完備的基礎特徵，繼任特徵的學習可以被視為一種具有明確結構約束的元學習形式。在特徵空間已知且環境動態穩定的假設下，繼任特徵的適應速度通常比通用的元強化學習方法更快，計算開銷也更低。

最後，值得探討繼任特徵與通用價值函數逼近器之間的聯繫。通用價值函數逼近器是強化學習中表示各種關於未來預測的框架，它允許智能體學習關於環境中任意信號的預期累積值。從這個角度來看，繼任特徵可以被視為通用價值函數逼近器的一個特例，其中被預測的信號就是環境的狀態特徵向量。將繼任特徵納入這個框架中有助於設計複雜的智能體架構，例如讓智能體不僅預測外部特徵，還預測自身內部狀態的變化，從而構建出具有豐富內在動機的系統。

## 常見問題

### 繼任特徵與傳統價值函數有什麼本質上的區別？

傳統的價值函數將環境動態（狀態如何轉變）和任務目標（獲得多少獎勵）融合為單一的預期數值。這種耦合導致只要任務目標改變，整個價值函數就必須重新學習。繼任特徵的本質區別在於它進行了解耦，專門負責預測未來會遇到的環境狀態特徵的累積量，完全不包含具體任務的價值判斷。當我們需要計算特定任務的價值時，只需將這些學習好的特徵累積量與代表新任務目標的權重向量進行內積計算即可。這種分離機制使得在環境物理規則不變的情況下，智能體能夠瞬間適應新的獎勵設定，提高了多任務學習的效率。

### 在實踐中，我們該如何設計或獲取繼任特徵所依賴的基礎特徵向量？

基礎特徵向量的設計是應用繼任特徵的關鍵挑戰。直接的方法是依賴領域專家的先驗知識，手工構建能夠涵蓋環境中所有潛在相關因素的特徵。然而在影像等高維度狀態空間中，這十分困難。目前主流的方法是利用深度學習的無監督或自監督學習技術，例如自編碼器或對比學習，讓神經網路自動從環境觀測中提取低維度的潛在表示作為特徵。另一種策略是結合多個多樣化的輔助任務，強制特徵提取網路學習到足夠豐富的表徵，以確保這些特徵的線性組合能夠覆蓋未來可能遇到的各種具體任務獎勵。

### 繼任特徵在處理環境動態發生改變時會遇到什麼問題？

繼任特徵的核心假設是不同任務之間共享相同的狀態轉移機率。如果環境動態發生了實質性改變，例如機器人關節磨損導致運動模型改變，或是遊戲規則中某些動作的結果發生變化，先前學習到的繼任預期就會失效。在這種非平穩環境中，直接套用舊的繼任特徵會導致智能體做出錯誤的決策，因為它對未來的預測已經不符合當前的物理現實。為了解決這個問題，通常需要引入額外的機制來持續監控環境變化並動態地微調繼任特徵網路，或者將環境的動態參數也作為輸入給神經網路，使其能夠適應具有不同物理屬性的環境。

---

深度解說頁：https://aiterms.tw/learning/what-is-successor-features
快查頁：https://aiterms.tw/terms/successor-features
最後更新：2026/07/04