# 策略梯度（Policy Gradient）

策略梯度是一種直接優化策略的強化學習方法，它通過計算策略梯度來更新策略參數，以最大化預期累積獎勵。

## 完整說明

策略梯度方法是強化學習中的一類算法，它直接學習策略，而無需顯式地學習價值函數。策略梯度算法通過計算策略梯度來更新策略參數，策略梯度指示了策略參數應該如何調整才能最大化預期累積獎勵。與基於價值函數的方法相比，策略梯度方法可以直接學習隨機策略，並且在高維度動作空間中表現良好。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/policy-gradient
快查頁：https://aiterms.tw/terms/policy-gradient
深度解說：https://aiterms.tw/learning/what-is-policy-gradient