演員-評論家 Actor-Critic
演員-評論家是一種強化學習演算法,結合了策略梯度(演員)和時序差分學習(評論家)的優點,以實現更穩定的學習。
瀏覽 AITerms.tw 中標籤為「強化學習」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「強化學習」,共 58 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「強化學習」 ,共 58 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
透過學習專家演示直接訓練智能體策略的監督學習方法。
機器人模仿學習是一種讓機器人透過觀察人類或其他專家示範來學習技能的方法,旨在使機器人能執行複雜任務。
探索不足是指代理人過早專注於已知的高回報行為,未充分嘗試其他未知行為,導致陷入局部最佳解的現象。
從專家演示的行為推斷潛在獎勵函數的強化學習方法。
一種統計假設,主張系統在給定當前狀態下,未來的演變與過去歷史狀態相互獨立,即未來只取決於現在。
馬可夫決策過程(MDP)是一種用於建模決策的數學框架,其中結果部分隨機,部分受決策者控制。它廣泛應用於強化學習。
元學習,又稱學習如何學習,旨在訓練模型能夠快速適應新任務或環境,透過少量樣本即可達到良好的效能。
學習環境模型(動態和獎賞),用模型進行規劃而非直接與環境互動的強化學習方法。
運用生成式人工智慧模型,探索廣大化學空間並精準設計出具有特定期望性質之全新分子結構的前沿技術。
自駕車運動規劃是為自動駕駛車輛計算安全、可行且最佳行駛路徑的技術,確保車輛能避開障礙物並達成駕駛目標。
Multi 泛指人工智慧中結合多種資料類型、任務或智能體的技術,能大幅提升系統處理複雜現實問題的靈活性。
多個智能體在同一環境中互動的強化學習,須處理協作、競爭和通訊等複雜關係。
同時學習多個相關任務的強化學習方法,利用任務間的知識共享提升效率。
在人工智慧中,規劃是指為達成特定目標,自動生成一系列行動步驟的過程。它涉及預測行動的結果,並選擇最佳的行動序列。
策略崩潰是強化學習中因參數更新過度,導致行為迅速退化成單一無效模式的現象,嚴重破壞訓練穩定性。
策略梯度是一種直接優化策略的強化學習方法,它通過計算策略梯度來更新策略參數,以最大化預期累積獎勵。
強化學習中代理人用於表示自身行動策略的機制,區分當前被最佳化的策略與環境互動所用的策略。
改進的策略梯度演算法,透過信賴域約束防止策略過大更新,提高訓練穩定性。
Real指真實世界資料或物理環境,作為生成式AI判別真偽的基準,或強化學習訓練後最終部署落地的目標場景。
強化學習是一種讓 AI 透過與環境互動,從獎勵和懲罰中學習,進而找到最佳行動策略的方法
獎勵函數是強化學習中定義代理在特定狀態下採取特定動作後獲得的獎勵的函數,用於引導代理學習期望行為。
獎勵建模是訓練AI模型以預測人類對不同結果的偏好,用於強化學習中,引導模型學習符合人類價值的行為。
修改強化學習的獎賞函數以加快收斂和改進學習效率的技術。
結合強化學習與電腦視覺技術,讓代理程式透過與環境互動及獲得獎勵,學習解決動態且需序列決策的視覺任務。
將強化學習技術應用於自然語言處理任務中,透過獎勵機制優化文本生成的序列決策過程。
人類回饋強化學習(RLHF)是一種利用人類回饋訊號,訓練強化學習模型,使其行為更符合人類偏好的方法。
透過可客觀驗證的獎勵信號(如數學題正確答案)訓練語言模型推理能力的強化學習方法。
機器人學習是指讓機器人透過感測資料與互動經驗,自主學習新技能與適應環境的技術。
機器人學是設計、建造、操作和應用機器人的科學和工程學科,涉及機械工程、電子工程、電腦科學等多個領域。
在強化學習訓練過程中加入安全約束,確保智能體的行為不違反安全界限。
AI中的「自」機制涵蓋自監督學習、自我注意力與自我對弈,強調模型利用自身資訊或內部關聯進行學習。
自我對弈是一種強化學習技術,其中智能體與自身的副本進行對弈,從而學習和改進策略,無需外部人類或標記數據。
模擬至實轉移是一種將在模擬環境中訓練的模型應用到真實世界的方法,旨在克服模擬與現實之間的差異,提升模型泛化能力。
繼任特徵是強化學習中的一種狀態表徵方法,用於解耦環境動態與獎勵函數,提升多任務學習效率。
超級對齊旨在確保遠超人類智慧的AI系統,其目標與人類價值觀對齊,避免潛在的失控風險。
時間抽象化將一連串底層動作封裝為高階技能,使強化學習模型能在更長的時間尺度上決策與規劃。
時序差分學習是一種強化學習方法,透過預測未來獎勵並更新預測值,從不完整的序列中學習,無需等待完整結果。
軌跡最佳化是機器人學與控制領域的關鍵技術,旨在規劃出滿足特定約束條件並最佳化預設目標函數的運動路徑。
一種策略梯度方法,透過限制策略更新的範圍以保證單調性改進的強化學習算法。