# 演員-評論家（Actor-Critic）

演員-評論家是一種強化學習演算法，結合了策略梯度（演員）和時序差分學習（評論家）的優點，以實現更穩定的學習。

## 完整說明

演員-評論家方法是一種強化學習演算法，它同時學習策略（演員）和價值函數（評論家）。演員負責選擇動作，而評論家負責評估演員的動作，並提供回饋以改進策略。這種結合有助於克服單獨使用策略梯度或價值函數方法的局限性，並實現更穩定和高效的學習。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/actor-critic
快查頁：https://aiterms.tw/terms/actor-critic
深度解說：https://aiterms.tw/learning/what-is-actor-critic