信任域策略優化 Trust Region Policy Optimization
一種策略梯度方法,透過限制策略更新的範圍以保證單調性改進的強化學習算法。
策略梯度強化學習連續控制
瀏覽 AITerms.tw 中標籤為「信任區域」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「信任區域」,共 1 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「信任區域」 ,共 1 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。