---
title: "時間抽象化（Temporal Abstraction）"
slug: temporal-abstraction
language: zh-TW
source: https://aiterms.tw/learning/what-is-temporal-abstraction
updated_at: 2026-07-04
tags: [強化學習, 機器學習, AI基礎, source:arxiv]
ipas_term: false
type: deep-dive
---

# 時間抽象化 是什麼？

> 時間抽象化將一連串底層動作封裝為高階技能，使強化學習模型能在更長的時間尺度上決策與規劃。

## 核心概念
時間抽象化是強化學習領域中的一項關鍵機制，主要用於解決在具有長期目標的複雜環境中進行決策的問題。傳統的馬可夫決策過程通常基於單一的時間步長進行決策，這意味著代理程式需要在每一個微小的時間點上選擇一個基本動作。然而，在面臨需要經過大量步驟才能達成目標的任務時，這種單一步長的決策方式會導致狀態空間與動作空間的維度災難，使得學習過程變得極度緩慢且缺乏效率。

時間抽象化的核心思想是將一系列的基本動作封裝成更高層次、持續一段時間的巨集動作或技能。透過這樣的抽象層次提升，代理程式可以在更長的時間尺度上進行規劃與決策，而不必拘泥於每一個底層的微小動作。具體而言，這種抽象方式允許系統在特定的狀態下觸發一個預先定義或學習到的高階行為，該行為會接管代理程式的控制權，並在達成某個局部目標或滿足特定終止條件後才將控制權交還給高階決策層。

這種階層式的控制結構不僅大幅縮短了到達最終目標所需的決策步數，也使得先前學習到的技能可以在不同的任務或情境中被重複利用，進而提升了學習的泛化能力與樣本效率。時間抽象化為構建能夠應對真實世界複雜長序列任務的人工智慧系統提供了重要的理論基礎，使得智慧體能夠像人類一樣，以目標導向的方式將複雜任務分解為多個可執行的子任務。

## 運作原理
時間抽象化的運作原理通常建立在半馬可夫決策過程的數學框架之上。在標準的馬可夫決策過程中，每次狀態轉移的時間間隔被假定為常數，但在半馬可夫決策過程中，狀態轉移之間的時間長度可以是可變的，這恰好契合了高階技能執行所需時間不一的特性。其中最著名的實現方式是選項框架。

在選項框架中，一個選項被定義為一個三元組：啟動集合、內部策略與終止條件。啟動集合決定了在哪些狀態空間下可以選擇並啟動該選項。例如，在一個室內導航任務中，離開房間的選項只有在代理程式位於房間內部時才能被啟動。內部策略則是一個映射函數，它決定了在選項執行的過程中，代理程式在面對不同底層狀態時應該採取哪些基本動作。終止條件是一個機率函數，它評估在每個時間步長或特定狀態下，該選項結束執行的機率，將控制權交還給上一層級。

當高階策略選擇了一個選項後，系統便會遵循該選項的內部策略進行動作選擇，直到觸發終止條件。選項執行完畢後，系統會觀察到新的狀態以及在這段時間內累積的獎勵，並利用這些資訊來更新高階策略。這種階層式的學習過程可以透過修改傳統的時序差分學習演算法來實現。高階策略專注於選擇合適的選項來達成長期宏觀目標，而選項內的策略則專注於執行特定的局部微觀任務。透過同時或交替最佳化這兩個層次的策略，時間抽象化能夠顯著加速整體演算法的收斂速度並降低探索空間的維度。

## 實際應用
時間抽象化在多個領域展現了其解決複雜序列決策問題的潛力。在機器人控制中，機器人需要執行如抓取物體、開門或導航至特定位置等任務。這些任務如果完全依賴底層的馬達扭矩或關節角度控制來從頭學習，將會極度困難且耗時。透過時間抽象化，可以將抓取、移動等連續性行為封裝為高階技能。高階任務規劃器只需決定先移動到目標位置再執行抓取技能，大幅簡化了任務的複雜度，使機器人能夠執行更為精細的長期任務。

在複雜的策略遊戲中，時間抽象化同樣扮演著不可或缺的角色。例如在即時戰略遊戲中，玩家或人工智慧需要同時管理資源採集、單位生產與軍隊控制。將採集資源、建造特定建築物或發起一次局部攻擊等行為抽象為不同的選項，使得人工智慧代理可以專注於宏觀的戰略佈局與資源分配，而非微觀的單一單位像素級移動。這不僅提升了運算資源的分配效率，也使得人工智慧的行為邏輯更接近人類玩家的高階思考模式。

自動駕駛系統也是時間抽象化的一個重要實際應用場景。車輛的行駛軌跡可以被分解為多個高階行為模式，例如車道維持、安全超車、路口轉彎與緊急煞停等。決策系統可以根據當前的道路狀況、交通號誌與導航終點選擇合適的高階行為，而每個高階行為則有其對應的底層控制策略來微調方向盤角度與油門煞車力度。這種階層式架構不僅提高了系統對突發狀況的反應速度，也有助於提升自動駕駛系統的安全防護機制與決策過程的可解釋性。

## 常見誤區
在應用時間抽象化時，有幾個常見的誤解與實作挑戰需要特別注意。許多開發者認為引入時間抽象化後必然能全面加速學習過程並提升最終表現。然而，如果定義或學習到的高階技能與當前任務的目標不匹配，或者選項的設計過於僵化、缺乏適應性，反而會限制代理程式探索狀態空間的能力，導致策略陷入局部最佳解。不適當的抽象層次劃分可能會忽略環境中關鍵的細節動態資訊，使得最終的高階決策變得次優。

另一個常見的誤區是認為選項的內部策略與高階總體策略可以完全獨立且互不干擾地進行訓練。雖然在某些特定情況下可以預先訓練好一組通用的技能庫，但在面對未知的複雜新任務時，通常需要進行聯合最佳化或微調才能達到理想的整體表現。如果只是簡單地將預訓練的技能拼接在一起，而不考慮它們在過渡狀態時的動態變化與互動影響，往往無法發揮時間抽象化的預期效益。端到端地自動發現與學習有意義的選項仍然是目前學術界與產業界共同面對的一個重要技術挑戰。

此外，時間抽象化在某種程度上會增加演算法的整體架構複雜度與計算開銷。雖然它大幅減少了高階決策的時間步數，但在每一個底層時間步長中，系統仍需要持續評估選項的終止條件機率並執行內部策略網路的前向傳播。如果選項的數量設計得過多，或者選項內部的神經網路結構過於龐大，可能會抵消其在減少決策步數上帶來的學習效率提升。因此，在設計時間抽象化機制時，必須在技能的表達泛化能力與硬體計算複雜度之間取得嚴謹的平衡。

## 與相關技術的比較
時間抽象化通常與階層式強化學習緊密相關，它本質上可以被視為實現階層式控制架構的一種具體方法。在討論抽象化技術時，經常會將其與狀態抽象化進行對比。狀態抽象化旨在減少狀態空間的維度特徵，透過忽略不相關的環境特徵變數，將相似的狀態聚合在一起處理。相對而言，時間抽象化則是專注於減少動作空間在時間軸上的序列長度，將多個基本動作組合成巨集動作。兩者是互補的降維技術，在應對極度複雜的任務環境時通常會結合使用，以同時解決狀態空間和動作空間所帶來的維度災難。

與傳統的平坦式強化學習相比，傳統方法在每一步都需要重新評估所有可能的基礎動作價值，這在面臨稀疏獎勵環境和長視野回報問題時往往表現得非常不穩定且缺乏效率。時間抽象化透過引入選項或巨集動作的機制，為代理程式提供了一種在時間維度上的探索一致性。一旦高階策略選擇了一個選項，代理程式便會堅持執行該行為邏輯一段時間，這有助於其跨越廣泛缺乏獎勵信號的狀態區域，進行更具方向性與深度的環境探索。

與元學習技術的比較中，元學習的核心旨在學習如何學習，透過在多個不同但相關的任務上進行廣泛訓練，使模型能夠在面對新任務時具備快速適應的參數初始化能力。時間抽象化則更側重於在單一任務或特定任務家族中發現、封裝並重用有用的行為模式與序列結構。兩者都可以提升模型對環境變化的泛化能力，但切入點截然不同。元學習優化的是學習演算法本身或模型的初始權重，而時間抽象化優化的則是動作的結構層次與表示方式。在某些前瞻性的研究領域中，這兩種技術也正在被結合起來，用於學習能夠快速適應各種新環境的動態高階技能庫。

## 常見問題

### 時間抽象化中的「選項 (Options)」和一般的「動作 (Actions)」有什麼不同？

一般的動作是代理程式在單一時間步長內可以執行的最基本微觀操作，例如向左移動一個單位或對關節施加特定大小的力矩，這類動作通常只影響下一瞬間的狀態。選項則是由多個基本動作組成的序列集合，並且明確包含啟動條件和終止條件。選項可以持續多個時間步長，例如「走到會議室門口」或「平穩地拿起水杯」。選項本質上是一種高階技能或巨集動作，使代理程式能夠在更長的時間尺度上進行宏觀規劃，而不必在每一毫秒都重新評估所有底層動作的優劣。

### 為什麼在複雜的強化學習環境中需要使用時間抽象化？

當面對狀態空間龐大且任務目標需要經過長序列動作才能達成的環境時，傳統的強化學習演算法會面臨嚴重的維度災難，學習效率與收斂速度極低，特別是在獎勵信號非常稀疏的環境中。時間抽象化透過將零散的動作封裝成持續一段時間的高階技能，大幅減少了代理程式需要進行高階決策的總步數。這不僅加速了策略的學習過程，還使得代理程式能夠更容易且具備方向性地跨越沒有任何獎勵回饋的狀態區域，同時促進了學到的技能在不同相關任務之間的重複利用。

### 時間抽象化中的高階技能是事先定義好的，還是代理程式自己從環境中學習出來的？

這兩種方式在實務中都有應用。在早期的學術研究和許多特定的工業應用場景中，高階技能通常是由人類專家根據對任務領域的深刻理解，手動編寫並事先定義好的。然而，人工設計這些技能需要耗費大量的領域知識與測試時間。近年來，越來越多的研究致力於開發自動化演算法，讓代理程式能夠在與環境互動的過程中，自行發現並學習有用的高階技能表示。自動發現技能可以減少對人工先驗知識的依賴，並有機會找到人類未曾想到的高效行為模式。

---

深度解說頁：https://aiterms.tw/learning/what-is-temporal-abstraction
快查頁：https://aiterms.tw/terms/temporal-abstraction
最後更新：2026/07/04