---
title: "階層式強化學習（Hierarchical RL）"
slug: hierarchical-rl
language: zh-TW
source: https://aiterms.tw/learning/what-is-hierarchical-rl
updated_at: 2026-07-04
tags: [強化學習, 機器學習, 神經網路, 最佳化, source:arxiv]
ipas_term: false
type: deep-dive
---

# 階層式強化學習 是什麼？

> 階層式強化學習將複雜任務分解為多層次的子任務，透過高低層策略協同運作，解決稀疏獎勵與長期規劃問題。

## 核心概念
階層式強化學習源於人類解決複雜問題的思維模式。當人類面對一個長期且困難的目標時，通常不會直接思考每一個微小的肌肉抽動，而是會將這個大目標分解為數個階段性的里程碑，再進一步針對每一個里程碑規劃具體的行動步驟。在人工智慧的領域中，傳統的強化學習往往要求智慧體直接從最底層的狀態空間中尋找通往最終目標的動作序列。當任務時間跨度極長、狀態空間維度極高，且環境給予的反饋訊號非常稀疏時，智慧體就會陷入盲目探索的困境，這被稱為維度災難。階層式強化學習引入了時間與空間的抽象化機制，將單一的策略網路轉化為多層級的決策結構。在這個結構中，最高層的模組負責宏觀的長期規劃，它在較為抽象的狀態空間中運作，並以較低的頻率產生高階指令或是子目標。而底層的模組則專注於局部的具體執行，它在接收到高階模組傳遞下來的子目標後，以高頻率與環境進行互動，輸出實際的控制動作。這種分治法的策略設計不僅大幅縮減了每一層級需要探索的空間大小，也讓上層模組能夠重複呼叫已經學會特定技能的下層模組，進而提升了學習的樣本效率與知識的遷移能力。透過這種階層式的架構，智慧體得以在極度複雜的環境中建立起具有邏輯結構的行為模式，解決傳統方法難以企及的長期決策難題。

## 運作原理
階層式強化學習的運作機制建立在馬可夫決策過程的擴充框架之上，其中最著名的數學模型包含了半馬可夫決策過程與選擇框架。在傳統的馬可夫決策過程中，每一個動作的執行時間被假設為一個離散的時間步；而在半馬可夫決策過程中，一個動作或是巨集動作的執行可能需要跨越隨機數量的時間步才能完成。這樣的數學框架為多層次時間尺度的決策提供了嚴謹的理論基礎。在具體的演算法設計上，常見的架構通常包含一個元控制器與一個或多個控制器。元控制器負責觀察環境的全域狀態，並根據目前的長期目標選擇一個合適的子目標或是啟動特定的技能模組。這個子目標會被傳遞給下層的控制器，控制器接著進入一個局部的迴圈，持續觀察環境細節並輸出具體動作，直到達成該子目標、達到時間上限，或是環境發生重大變化為止。在學習的過程中，獎勵機制的設計是階層式強化學習的核心挑戰之一。通常環境只會在智慧體達成最終目標時給予外部獎勵，而為了讓下層控制器能夠有效學習，系統必須設計內部獎勵機制。當底層模組成功達到上層賦予的子目標時，就會獲得內部獎勵，藉此引導其優化執行特定任務的策略。同時，上層模組的學習則依賴於環境給予的外部總獎勵，它必須評估自己選擇特定子目標的決策是否能促進整體任務的完成。這種雙層或多層的學習過程往往面臨著非平穩性的問題，因為當下層的策略還在變動時，上層所觀察到的狀態轉移機率與預期回報也會隨之改變。為了解決這個問題，研究人員發展出了多種修正技術，例如透過經驗回放池的離線策略修正，或是固定某一層級的網路權重來穩定訓練過程。此外，近年來的研究也探索了端到端的聯合訓練方法，試圖讓高低階層的表徵與策略能夠在同一個目標函數下進行優化，進一步提升整體架構的適應能力。

## 實際應用
階層式強化學習在許多具有複雜狀態空間與長程依賴特性的領域中展現出龐大的應用潛力。在機器人控制領域，特別是多自由度的雙足或四足機器人，直接從關節力矩層級學習走路與導航是極度困難的。透過階層式架構，高層策略可以專注於路徑規劃與避障，決定機器人前進的方向與速度，而底層策略則負責將這些方向指令轉化為精確的關節馬達控制，維持身體的平衡與協調。這樣的設計不僅加速了訓練過程，也使得底層的步態控制技能可以輕鬆轉移到不同的高層導航任務中。在自動駕駛領域，車輛的決策過程同樣具有明顯的階層特徵。系統的頂層負責全局路線規劃，中間層負責車道變換與跟車決策，而底層則處理方向盤角度與油門煞車的連續控制。階層式強化學習能夠將這些不同抽象層級的任務整合在一個統一的學習框架下，提高自動駕駛系統在複雜市區道路中的應變能力與安全性。在大型戰略遊戲或是多人線上競技遊戲的人工智慧開發中，智慧體需要在長達數十分鐘的遊戲時間內進行資源分配、科技升級與部隊微操。傳統演算法無法處理如此漫長的時間跨度與龐大的動作空間，而階層式方法允許人工智慧先決定宏觀的戰略方針，例如要在特定時期擴張領土或是發展經濟，接著再由下層模組執行具體的建築建造與單位移動，這種架構已經在多項國際級的人工智慧遊戲競賽中取得了顯著的成果。在企業級的應用中，例如物流中心的倉儲排程與運算節點的資源分配，階層式架構能夠將跨區域的全局資源調度與單一節點的即時任務派發結合，在動態變化的負載需求下尋找出接近最佳化的營運策略。

## 常見誤區
在導入與應用階層式強化學習時，開發者經常會陷入幾個概念與實務上的誤區。第一個常見誤區是認為層級切分越多越好。有些設計者試圖將任務過度細分，建構出四層甚至五層的決策架構。然而，隨著層級數量的增加，模組之間的溝通成本與訓練的不穩定性也會成指數級上升。在大多數實務場景中，兩層或三層的架構就已經足以處理極度複雜的任務，過深的階層反而會導致誤差累積與策略收斂困難。第二個誤區在於人為設計的子目標空間過度僵化。早期的方法依賴領域專家手動定義每一層級的狀態特徵與可選動作，雖然這樣可以加速初期的學習，但卻大幅限制了智慧體探索未知且可能更有效策略的空間。現代的發展趨勢傾向於讓神經網路自動學習子目標的向量表徵，減少人工干預帶來的偏差。第三個誤區是忽視了非平穩性問題對訓練過程的破壞力。當高階策略在評估某個子目標的價值時，它預設低階策略能夠以一定的成功率完成該目標。但如果在訓練初期，低階策略尚未成熟，高階策略就會得到錯誤的評估結果，進而學習到次優的決策模式。如果沒有採用適當的離線數據修正機制或是分段訓練策略，整個階層架構的訓練很容易崩潰。最後一個誤區是低估了獎勵塑形的困難度。雖然階層式架構引入了內部獎勵來引導低階策略，但如果內部獎勵的設計與最終的環境外部獎勵存在方向上的衝突，智慧體可能會學會不斷達成子目標來騙取內部獎勵，卻完全忽略了整體任務的最終目的。因此，在設計獎勵機制時，必須確保內部目標始終是為全域目標服務的。

## 與相關技術的比較
在解決複雜連續決策問題的技術頻譜中，階層式強化學習與其他幾種先進方法有著密切的關聯，但也存在本質上的差異。相較於傳統的扁平式強化學習，扁平式架構試圖用一個單一的深度神經網路將原始狀態直接映射到基礎動作。這種方法在處理圍棋或雅達利遊戲等相對短程的任務時表現優異，但當面對需要數千步甚至數萬步才能獲得一次獎勵的環境時，扁平式網路的信用分配機制就會失效。階層式方法正是為了彌補這個缺陷而生，透過引入時間抽象來縮短因果連結的距離。與元學習的比較中，元學習的核心精神是學會如何學習，它關注的是如何利用過去在不同任務上的經驗，讓智慧體在面對全新任務時能夠用極少的樣本快速適應。雖然某些階層式架構的頂層網路也被稱為元控制器，但其目的是在單一複雜環境中進行任務調度，而非追求跨任務的快速適應能力。不過，這兩者是可以結合的，例如利用元學習來訓練一個能夠快速適應各種地形的低階行走控制器。在與多智慧體強化學習的對比上，多智慧體系統探討的是多個獨立實體在同一個環境中競爭或合作的動態過程，每個智慧體都有自己的目標與觀測。而階層式強化學習則通常聚焦於單一智慧體內部的結構化設計，雖然它的各個層級模組在運作上看似多個獨立單元，但它們最終都服務於同一個總體優化目標。最後，與模仿學習相比，模仿學習依賴大量的人類專家示範數據來直接訓練策略網路，它能夠快速建立起具備基本能力的模型，但其表現上限通常受到專家數據質量的限制。階層式強化學習則強調在環境中主動探索與試錯，雖然初期的學習曲線較為平緩，但它有機會發現比人類專家更有效率的新穎策略，並且在缺乏優質示範數據的領域中，階層式方法提供了更具可行性的解決方案。

## 常見問題

### 階層式強化學習與傳統的強化學習最大的差異是什麼？

傳統強化學習通常使用單一的策略網路直接將環境狀態映射到底層的具體動作，這在面對需要長時間規劃與獎勵極度稀疏的複雜任務時，會面臨探索空間過大與難以將獎勵分配到先前動作的挑戰。階層式強化學習透過引入時間與空間的抽象化，將決策過程拆分為多個層級。高層網路負責設定宏觀的子目標或抽象指令，而低層網路則專注於將這些指令轉換為具體的連續動作。這種分工機制大幅縮短了學習路徑並提高了探索效率。

### 在階層式強化學習中，非平穩性問題是如何產生的？

非平穩性問題源於多個層級策略的同步學習過程。當高階策略選擇一個子目標並觀察其結果時，這個結果實際上取決於低階策略的執行能力。在訓練初期，低階策略還在不斷更新與改變，這意味著對於同一個子目標，低階策略的執行結果是不固定的。這導致高階策略所觀察到的狀態轉移機率與預期回報不斷變化，使得環境看起來是動態非平穩的，進而嚴重干擾高階策略的收斂。解決方法通常包括固定某層網路權重交替訓練或使用修正技術。

### 設計階層式強化學習系統時，應該如何處理內部獎勵的設定？

內部獎勵是高層策略用來引導低層策略完成特定子目標的關鍵訊號。良好的內部獎勵應該與總體任務的最終外部獎勵保持一致。如果內部獎勵的設計存在漏洞，低層策略可能會學會不斷重複某些毫無意義的動作來騙取內部獎勵，卻無法推進整體任務的進度。現代方法傾向於減少人工設定的內部獎勵規則，轉而使用神經網路自動學習的表徵距離，或是將高低層級放置於統一的目標函數下進行端到端優化，以減少人為設計帶來的偏差。

---

深度解說頁：https://aiterms.tw/learning/what-is-hierarchical-rl
快查頁：https://aiterms.tw/terms/hierarchical-rl
最後更新：2026/07/04