---
title: "選項框架（Option Framework）"
slug: option-framework
language: zh-TW
source: https://aiterms.tw/terms/option-framework
updated_at: 2026-07-04
tags: [強化學習, 機器學習, AI基礎, source:arxiv]
ipas_term: false
---

# 選項框架（Option Framework）

選項框架是層次化強化學習中的數學模型，透過將基礎動作抽象為高階宏觀動作，幫助智能體在複雜環境中進行長時間跨度的規劃與決策。

## 完整說明

選項框架是一種用於層次化強化學習的數學抽象結構，能夠將一系列基礎動作封裝成具有明確啟動條件與終止條件的選項。這使得智能體在探索與決策時可以跨越不同的時間尺度，減少高階策略的決策頻率並加速學習過程。常見應用包括機器人導航、複雜遊戲控制以及多步驟任務排程等需要長期規劃與執行的領域。

## 常見問題

### 選項框架與傳統的宏觀動作有什麼本質上的區別？

傳統的宏觀動作是一系列預先定義好的、固定的基礎動作序列。一旦系統觸發了一個宏觀動作，智能體就會盲目地、開環地執行這串動作，直到序列結束，過程中不會根據環境狀態的變化進行動態調整。這種機制的靈活性極差，若環境中存在隨機性或突發障礙物，宏觀動作很容易導致失敗。相對而言，選項框架中的選項是閉環的控制策略。每個選項都擁有自己的內部策略與終止條件。當選項被啟動時，它會根據每一個時間步的即時環境狀態來決定下一步的動作，並透過終止函數來評估是否應該結束當前選項並將控制權交還給高階策略。這使得選項能夠靈活應對複雜多變的隨機環境，展現出比宏觀動作更強大的適應能力與容錯率。

### 在實際應用中，如何決定或設計一個好的選項啟動集與終止條件？

設計優質的啟動集與終止條件是選項框架成功的關鍵。如果採用人工設計的方法，通常會依賴領域專家的知識來界定。例如在迷宮導航任務中，啟動集可以設定為某個特定房間內的所有狀態，而終止條件則設定為到達該房間的出口或房門。在缺乏領域知識的情況下，現代強化學習傾向於使用自動發現技術。常見的策略是尋找環境的瓶頸狀態，這些狀態是連接不同狀態空間區域的必經之路。將瓶頸狀態設定為選項的終止條件，有助於智能體學會跨越不同區域。此外，端到端的學習架構如 Option-Critic，透過計算優勢函數來動態調整終止機率，當發現切換其他選項能獲得更高預期回報時，演算法會自動提高當前選項的終止機率，從而在探索過程中自主打磨出合適的啟動與終止邏輯。

### 為什麼在選項框架中會出現選項增殖的問題，該如何解決？

選項增殖問題發生在系統內部自動生成或手動定義了過多功能相似、缺乏多樣性的選項。當選項數量變得龐大時，高階策略在選擇選項時的動作空間會急遽膨脹，這不僅抵銷了選項框架原先減少決策維度的優勢，還會大幅增加演算法探索的運算負擔與收斂時間。要解決這個問題，研究人員通常會在優化目標中引入正則化項或多樣性懲罰機制。例如，透過資訊理論中的互信息來要求不同選項的內部策略在相同的狀態下產生截然不同的動作分佈。另外，也可以對高階策略切換選項的頻率施加懲罰，鼓勵智能體重用現有選項並延長選項的持續時間，避免頻繁切換導致的冗餘選項生成。透過這些機制，系統能夠篩選出真正具有獨立價值與代表性的核心選項。

---

來源：https://aiterms.tw/terms/option-framework
快查頁：https://aiterms.tw/terms/option-framework
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-option-framework