---
title: "繼任特徵（Successor Features）"
slug: successor-features
language: zh-TW
source: https://aiterms.tw/terms/successor-features
updated_at: 2026-07-04
tags: [強化學習, 遷移學習, 特徵工程, source:arxiv]
ipas_term: false
---

# 繼任特徵（Successor Features）

繼任特徵是強化學習中的一種狀態表徵方法，用於解耦環境動態與獎勵函數，提升多任務學習效率。

## 完整說明

繼任特徵是一種在強化學習中表示狀態預期未來特徵的方法，用於將環境的動態轉移機率與特定任務的獎勵函數分離，能夠在環境物理規則不變但獎勵改變時快速適應新任務。常見應用包括多任務強化學習、遷移學習與機器人控制。

## 常見問題

### 繼任特徵與傳統價值函數有什麼本質上的區別？

傳統的價值函數將環境動態（狀態如何轉變）和任務目標（獲得多少獎勵）融合為單一的預期數值。這種耦合導致只要任務目標改變，整個價值函數就必須重新學習。繼任特徵的本質區別在於它進行了解耦，專門負責預測未來會遇到的環境狀態特徵的累積量，完全不包含具體任務的價值判斷。當我們需要計算特定任務的價值時，只需將這些學習好的特徵累積量與代表新任務目標的權重向量進行內積計算即可。這種分離機制使得在環境物理規則不變的情況下，智能體能夠瞬間適應新的獎勵設定，提高了多任務學習的效率。

### 在實踐中，我們該如何設計或獲取繼任特徵所依賴的基礎特徵向量？

基礎特徵向量的設計是應用繼任特徵的關鍵挑戰。直接的方法是依賴領域專家的先驗知識，手工構建能夠涵蓋環境中所有潛在相關因素的特徵。然而在影像等高維度狀態空間中，這十分困難。目前主流的方法是利用深度學習的無監督或自監督學習技術，例如自編碼器或對比學習，讓神經網路自動從環境觀測中提取低維度的潛在表示作為特徵。另一種策略是結合多個多樣化的輔助任務，強制特徵提取網路學習到足夠豐富的表徵，以確保這些特徵的線性組合能夠覆蓋未來可能遇到的各種具體任務獎勵。

### 繼任特徵在處理環境動態發生改變時會遇到什麼問題？

繼任特徵的核心假設是不同任務之間共享相同的狀態轉移機率。如果環境動態發生了實質性改變，例如機器人關節磨損導致運動模型改變，或是遊戲規則中某些動作的結果發生變化，先前學習到的繼任預期就會失效。在這種非平穩環境中，直接套用舊的繼任特徵會導致智能體做出錯誤的決策，因為它對未來的預測已經不符合當前的物理現實。為了解決這個問題，通常需要引入額外的機制來持續監控環境變化並動態地微調繼任特徵網路，或者將環境的動態參數也作為輸入給神經網路，使其能夠適應具有不同物理屬性的環境。

---

來源：https://aiterms.tw/terms/successor-features
快查頁：https://aiterms.tw/terms/successor-features
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-successor-features