---
title: "階層式強化學習（Hierarchical RL）"
slug: hierarchical-rl
language: zh-TW
source: https://aiterms.tw/terms/hierarchical-rl
updated_at: 2026-07-04
tags: [強化學習, 機器學習, 神經網路, 最佳化, source:arxiv]
ipas_term: false
---

# 階層式強化學習（Hierarchical RL）

階層式強化學習將複雜任務分解為多層次的子任務，透過高低層策略協同運作，解決稀疏獎勵與長期規劃問題。

## 完整說明

階層式強化學習是一種將決策問題分解為多個層級的演算法，能夠透過高階策略制定目標與低階策略執行動作來縮短學習路徑，有效克服稀疏獎勵挑戰。常見應用包括多自由度機器人控制、自動駕駛導航、戰略遊戲人工智慧以及物流排程優化。

## 常見問題

### 階層式強化學習與傳統的強化學習最大的差異是什麼？

傳統強化學習通常使用單一的策略網路直接將環境狀態映射到底層的具體動作，這在面對需要長時間規劃與獎勵極度稀疏的複雜任務時，會面臨探索空間過大與難以將獎勵分配到先前動作的挑戰。階層式強化學習透過引入時間與空間的抽象化，將決策過程拆分為多個層級。高層網路負責設定宏觀的子目標或抽象指令，而低層網路則專注於將這些指令轉換為具體的連續動作。這種分工機制大幅縮短了學習路徑並提高了探索效率。

### 在階層式強化學習中，非平穩性問題是如何產生的？

非平穩性問題源於多個層級策略的同步學習過程。當高階策略選擇一個子目標並觀察其結果時，這個結果實際上取決於低階策略的執行能力。在訓練初期，低階策略還在不斷更新與改變，這意味著對於同一個子目標，低階策略的執行結果是不固定的。這導致高階策略所觀察到的狀態轉移機率與預期回報不斷變化，使得環境看起來是動態非平穩的，進而嚴重干擾高階策略的收斂。解決方法通常包括固定某層網路權重交替訓練或使用修正技術。

### 設計階層式強化學習系統時，應該如何處理內部獎勵的設定？

內部獎勵是高層策略用來引導低層策略完成特定子目標的關鍵訊號。良好的內部獎勵應該與總體任務的最終外部獎勵保持一致。如果內部獎勵的設計存在漏洞，低層策略可能會學會不斷重複某些毫無意義的動作來騙取內部獎勵，卻無法推進整體任務的進度。現代方法傾向於減少人工設定的內部獎勵規則，轉而使用神經網路自動學習的表徵距離，或是將高低層級放置於統一的目標函數下進行端到端優化，以減少人為設計帶來的偏差。

---

來源：https://aiterms.tw/terms/hierarchical-rl
快查頁：https://aiterms.tw/terms/hierarchical-rl
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-hierarchical-rl