術語詞典

強化學習相關 AI 術語

瀏覽 AITerms.tw 中標籤為「強化學習」的 AI 術語，快速找到定義、FAQ 與 iPAS 考試重點。

目前篩選：標籤「強化學習」，共 58 個術語。

目前篩選：標籤「強化學習」，共 58 個術語

清除篩選同一術語可隸屬多個主題，因此主題數量會重複計算。

共找到 58 個術語標籤：強化學習清除條件

A

3 個術語

演員-評論家 Actor-Critic

演員-評論家是一種強化學習演算法，結合了策略梯度（演員）和時序差分學習（評論家）的優點，以實現更穩定的學習。

強化學習深度學習模型訓練

演員-評論家是什麼？→

對齊校準 Alignment

對齊校準是指使AI模型，特別是大型語言模型，的行為與人類意圖、價值觀和倫理規範相符的過程，降低潛在風險。

大型語言模型生成式AI模型訓練

對齊校準是什麼？→

自主系統 Autonomous System

自主系統是指能在沒有外部干預下，感知環境、做出決策並執行動作的系統，具備一定程度的獨立性和適應性。

AI應用機器學習強化學習

自主系統是什麼？→

C

1 個術語

RL組合最佳化 Combinatorial Optimization with RL

利用強化學習演算法來解決複雜組合最佳化問題的技術，透過與環境互動學習最佳決策策略以尋求近似最佳解。

強化學習最佳化機器學習

RL組合最佳化是什麼？→

D

3 個術語

深度Q網路 Deep Q-Network

深度Q網路（DQN）是一種結合深度學習與Q學習的強化學習演算法，利用深度神經網路逼近Q函數，解決高維度狀態空間的強化學習問題。

機器學習深度學習強化學習

深度Q網路是什麼？→

深度強化學習 Deep Reinforcement Learning

深度強化學習結合深度學習與強化學習，透過深度神經網路學習複雜策略，以在特定環境中最大化累積獎勵。

機器學習深度學習強化學習

深度強化學習是什麼？→

直接偏好優化 Direct Preference Optimization

直接偏好優化（DPO）是一種直接利用人類偏好資料，優化語言模型，無需訓練獎勵模型的強化學習替代方案。

強化學習大型語言模型模型訓練

直接偏好優化是什麼？→

E

2 個術語

具身人工智慧 Embodied AI

具身人工智慧是指讓AI系統擁有物理軀體，透過與環境互動來學習和解決問題，強調感知、行動和環境之間的循環。

機器學習強化學習AI應用

具身人工智慧是什麼？→

探索與利用 Exploration vs Exploitation

探索與利用是強化學習中的權衡，探索是指嘗試新動作以發現潛在的更好策略，利用是指使用已知最佳策略以獲得最大獎勵。

強化學習最佳化AI基礎

探索與利用是什麼？→

F

1 個術語

回饋迴路 Feedback Loop

回饋迴路是指系統輸出影響其輸入的過程，在AI中用於迭代改進模型效能，透過評估結果並調整參數。

機器學習模型訓練最佳化

回饋迴路是什麼？→

H

3 個術語

階層化強化學習 Hierarchical Reinforcement Learning

將複雜任務分解為多層子任務，由不同層級的策略分別優化的強化學習方法。

強化學習任務分解多層策略

階層化強化學習是什麼？→

階層式強化學習 Hierarchical RL

階層式強化學習將複雜任務分解為多層次的子任務，透過高低層策略協同運作，解決稀疏獎勵與長期規劃問題。

強化學習機器學習神經網路

階層式強化學習是什麼？→

人類參與機制 Human

指在人工智慧系統的訓練、評估與決策過程中，系統性引入人類專業知識與反饋的機制，以確保模型行為符合預期。

AI倫理與治理模型訓練AI應用

人類參與機制是什麼？→

I

4 個術語

模仿學習 Imitation Learning

透過學習專家演示直接訓練智能體策略的監督學習方法。

監督學習強化學習專家演示

模仿學習是什麼？→

機器人模仿學習 Imitation Learning for Robots

機器人模仿學習是一種讓機器人透過觀察人類或其他專家示範來學習技能的方法，旨在使機器人能執行複雜任務。

機器學習強化學習AI應用

機器人模仿學習是什麼？→

探索不足 Insufficient Exploration

iPAS

探索不足是指代理人過早專注於已知的高回報行為，未充分嘗試其他未知行為，導致陷入局部最佳解的現象。

強化學習模型訓練最佳化

探索不足是什麼？→

逆向強化學習 Inverse Reinforcement Learning

從專家演示的行為推斷潛在獎勵函數的強化學習方法。

強化學習專家演示獎勵學習

逆向強化學習是什麼？→

L

1 個術語

循環世界模型 Looped World Models

AI 代理在環境中不斷感知、預測、行動並以回饋更新內部世界表徵的閉環學習架構。

強化學習World ModelAI代理

循環世界模型是什麼？→

M

9 個術語

馬可夫假設 Markov Assumption

iPAS

一種統計假設，主張系統在給定當前狀態下，未來的演變與過去歷史狀態相互獨立，即未來只取決於現在。

統計方法強化學習自然語言處理

馬可夫假設是什麼？→

馬可夫決策過程 Markov Decision Process

馬可夫決策過程（MDP）是一種用於建模決策的數學框架，其中結果部分隨機，部分受決策者控制。它廣泛應用於強化學習。

強化學習AI基礎最佳化

馬可夫決策過程是什麼？→

元學習 Meta-learning

元學習，又稱學習如何學習，旨在訓練模型能夠快速適應新任務或環境，透過少量樣本即可達到良好的效能。

機器學習深度學習模型訓練

元學習是什麼？→

基於模型的強化學習 Model-based Reinforcement Learning

學習環境模型（動態和獎賞），用模型進行規劃而非直接與環境互動的強化學習方法。

強化學習模型訓練深度學習

基於模型的強化學習是什麼？→

分子生成 Molecular Generation

運用生成式人工智慧模型，探索廣大化學空間並精準設計出具有特定期望性質之全新分子結構的前沿技術。

生成式AI深度學習強化學習

分子生成是什麼？→

自駕車運動規劃 Motion Planning for Autonomous Vehicles

自駕車運動規劃是為自動駕駛車輛計算安全、可行且最佳行駛路徑的技術，確保車輛能避開障礙物並達成駕駛目標。

最佳化AI應用強化學習

自駕車運動規劃是什麼？→

多模態技術 Multi

Multi 泛指人工智慧中結合多種資料類型、任務或智能體的技術，能大幅提升系統處理複雜現實問題的靈活性。

多模態AI深度學習強化學習

多模態技術是什麼？→

多智能體強化學習 Multi-agent Reinforcement Learning

多個智能體在同一環境中互動的強化學習，須處理協作、競爭和通訊等複雜關係。

強化學習AI基礎深度學習

多智能體強化學習是什麼？→

多任務強化學習 Multi-task Reinforcement Learning

同時學習多個相關任務的強化學習方法，利用任務間的知識共享提升效率。

強化學習多任務學習遷移學習

多任務強化學習是什麼？→

O

3 個術語

物體操作 Object Manipulation

機器人透過感測與控制，對實體物件進行抓取、移動、放置等動作，以完成特定任務的技術。

機器學習深度學習電腦視覺

物體操作是什麼？→

離線強化學習 Offline Reinforcement Learning

從預先收集的固定資料集學習策略，不與環境互動，適合昂貴或危險環境。

強化學習模型訓練AI應用

離線強化學習是什麼？→

選項框架 Option Framework

選項框架是層次化強化學習中的數學模型，透過將基礎動作抽象為高階宏觀動作，幫助智能體在複雜環境中進行長時間跨度的規劃與決策。

強化學習機器學習AI基礎

選項框架是什麼？→

P

5 個術語

規劃 Planning

在人工智慧中，規劃是指為達成特定目標，自動生成一系列行動步驟的過程。它涉及預測行動的結果，並選擇最佳的行動序列。

AI基礎最佳化AI應用

規劃是什麼？→

策略崩潰 Policy Collapse

iPAS

策略崩潰是強化學習中因參數更新過度，導致行為迅速退化成單一無效模式的現象，嚴重破壞訓練穩定性。

強化學習大型語言模型模型訓練

策略崩潰是什麼？→

策略梯度 Policy Gradient

策略梯度是一種直接優化策略的強化學習方法，它通過計算策略梯度來更新策略參數，以最大化預期累積獎勵。

機器學習強化學習模型訓練

策略梯度是什麼？→

策略自我 Policy Self

強化學習中代理人用於表示自身行動策略的機制，區分當前被最佳化的策略與環境互動所用的策略。

強化學習策略梯度多代理人系統

策略自我是什麼？→

近端策略最佳化 Proximal Policy Optimization

改進的策略梯度演算法，透過信賴域約束防止策略過大更新，提高訓練穩定性。

強化學習深度學習模型訓練

近端策略最佳化是什麼？→

Q

1 個術語

Q學習 Q-Learning

一種無模型的強化學習演算法，透過估計狀態-行為對的價值函數來找到最優策略。

強化學習模型訓練最佳化

Q學習是什麼？→

R

11 個術語

真實資料與環境 Real

Real指真實世界資料或物理環境，作為生成式AI判別真偽的基準，或強化學習訓練後最終部署落地的目標場景。

強化學習生成式AI模型部署

真實資料與環境是什麼？→

強化學習 Reinforcement Learning

iPAS

強化學習是一種讓 AI 透過與環境互動，從獎勵和懲罰中學習，進而找到最佳行動策略的方法

強化學習模型訓練AI基礎高頻

強化學習是什麼？→

獎勵函數 Reward Function

獎勵函數是強化學習中定義代理在特定狀態下採取特定動作後獲得的獎勵的函數，用於引導代理學習期望行為。

強化學習模型訓練最佳化

獎勵函數是什麼？→

獎勵建模 Reward Modeling

獎勵建模是訓練AI模型以預測人類對不同結果的偏好，用於強化學習中，引導模型學習符合人類價值的行為。

強化學習模型訓練AI倫理與治理

獎勵建模是什麼？→

獎賞塑形 Reward Shaping

修改強化學習的獎賞函數以加快收斂和改進學習效率的技術。

強化學習模型訓練AI應用

獎賞塑形是什麼？→

電腦視覺強化學習 RL for Computer Vision

結合強化學習與電腦視覺技術，讓代理程式透過與環境互動及獲得獎勵，學習解決動態且需序列決策的視覺任務。

電腦視覺強化學習模型訓練

電腦視覺強化學習是什麼？→

自然語言處理強化學習 RL for NLP

將強化學習技術應用於自然語言處理任務中，透過獎勵機制優化文本生成的序列決策過程。

強化學習自然語言處理大型語言模型

自然語言處理強化學習是什麼？→

人類回饋強化學習 RLHF

人類回饋強化學習（RLHF）是一種利用人類回饋訊號，訓練強化學習模型，使其行為更符合人類偏好的方法。

強化學習大型語言模型模型訓練

人類回饋強化學習是什麼？→

可驗證獎勵強化學習 RLVR (Reinforcement Learning with Verifiable Rewards)

透過可客觀驗證的獎勵信號（如數學題正確答案）訓練語言模型推理能力的強化學習方法。

強化學習推理模型後訓練

可驗證獎勵強化學習是什麼？→

機器人學習 Robot Learning

機器人學習是指讓機器人透過感測資料與互動經驗，自主學習新技能與適應環境的技術。

機器學習強化學習AI應用

機器人學習是什麼？→

機器人學 Robotics

機器人學是設計、建造、操作和應用機器人的科學和工程學科，涉及機械工程、電子工程、電腦科學等多個領域。

AI應用機器學習電腦視覺

機器人學是什麼？→

S

6 個術語

安全強化學習 Safe Reinforcement Learning

在強化學習訓練過程中加入安全約束，確保智能體的行為不違反安全界限。

強化學習安全約束優化

安全強化學習是什麼？→

自機制與注意力 Self

AI中的「自」機制涵蓋自監督學習、自我注意力與自我對弈，強調模型利用自身資訊或內部關聯進行學習。

自監督學習神經網路強化學習

自機制與注意力是什麼？→

自我對弈 Self-play

自我對弈是一種強化學習技術，其中智能體與自身的副本進行對弈，從而學習和改進策略，無需外部人類或標記數據。

強化學習模型訓練最佳化

自我對弈是什麼？→

模擬至實轉移 Sim-to-Real Transfer

模擬至實轉移是一種將在模擬環境中訓練的模型應用到真實世界的方法，旨在克服模擬與現實之間的差異，提升模型泛化能力。

機器學習強化學習模型訓練

模擬至實轉移是什麼？→

繼任特徵 Successor Features

繼任特徵是強化學習中的一種狀態表徵方法，用於解耦環境動態與獎勵函數，提升多任務學習效率。

強化學習遷移學習特徵工程

繼任特徵是什麼？→

超級對齊 Superalignment

超級對齊旨在確保遠超人類智慧的AI系統，其目標與人類價值觀對齊，避免潛在的失控風險。

AI倫理與治理機器學習強化學習

超級對齊是什麼？→

T

4 個術語

時間抽象化 Temporal Abstraction

時間抽象化將一連串底層動作封裝為高階技能，使強化學習模型能在更長的時間尺度上決策與規劃。

強化學習機器學習AI基礎

時間抽象化是什麼？→

時序差分學習 Temporal Difference Learning

時序差分學習是一種強化學習方法，透過預測未來獎勵並更新預測值，從不完整的序列中學習，無需等待完整結果。

強化學習模型訓練最佳化

時序差分學習是什麼？→

軌跡最佳化 Trajectory Optimization

軌跡最佳化是機器人學與控制領域的關鍵技術，旨在規劃出滿足特定約束條件並最佳化預設目標函數的運動路徑。

最佳化強化學習機器學習

軌跡最佳化是什麼？→

信任域策略優化 Trust Region Policy Optimization

一種策略梯度方法，透過限制策略更新的範圍以保證單調性改進的強化學習算法。

策略梯度強化學習連續控制

信任域策略優化是什麼？→

W

1 個術語

世界模型 World Model

世界模型是一種AI模型，旨在學習環境的內部表示，使代理能夠預測未來狀態並做出更明智的決策。

機器學習強化學習模型訓練

世界模型是什麼？→

強化學習 相關 AI 術語

演員-評論家 Actor-Critic

對齊校準 Alignment

自主系統 Autonomous System

RL組合最佳化 Combinatorial Optimization with RL

深度Q網路 Deep Q-Network

深度強化學習 Deep Reinforcement Learning

直接偏好優化 Direct Preference Optimization

具身人工智慧 Embodied AI

探索與利用 Exploration vs Exploitation

回饋迴路 Feedback Loop

階層化強化學習 Hierarchical Reinforcement Learning

階層式強化學習 Hierarchical RL

人類參與機制 Human

模仿學習 Imitation Learning

機器人模仿學習 Imitation Learning for Robots

探索不足 Insufficient Exploration

逆向強化學習 Inverse Reinforcement Learning

循環世界模型 Looped World Models

馬可夫假設 Markov Assumption

馬可夫決策過程 Markov Decision Process

元學習 Meta-learning

基於模型的強化學習 Model-based Reinforcement Learning

分子生成 Molecular Generation

自駕車運動規劃 Motion Planning for Autonomous Vehicles

多模態技術 Multi

多智能體強化學習 Multi-agent Reinforcement Learning

多任務強化學習 Multi-task Reinforcement Learning

物體操作 Object Manipulation

離線強化學習 Offline Reinforcement Learning

選項框架 Option Framework

規劃 Planning

策略崩潰 Policy Collapse

策略梯度 Policy Gradient

策略自我 Policy Self

近端策略最佳化 Proximal Policy Optimization

Q學習 Q-Learning

真實資料與環境 Real

強化學習 Reinforcement Learning

獎勵函數 Reward Function

獎勵建模 Reward Modeling

獎賞塑形 Reward Shaping

電腦視覺強化學習 RL for Computer Vision

自然語言處理強化學習 RL for NLP

人類回饋強化學習 RLHF

可驗證獎勵強化學習 RLVR (Reinforcement Learning with Verifiable Rewards)

機器人學習 Robot Learning

機器人學 Robotics

安全強化學習 Safe Reinforcement Learning

自機制與注意力 Self

自我對弈 Self-play

模擬至實轉移 Sim-to-Real Transfer

繼任特徵 Successor Features

超級對齊 Superalignment

時間抽象化 Temporal Abstraction

時序差分學習 Temporal Difference Learning

軌跡最佳化 Trajectory Optimization

信任域策略優化 Trust Region Policy Optimization

世界模型 World Model

強化學習相關 AI 術語