# 時序差分學習（Temporal Difference Learning）

時序差分學習是一種強化學習方法，透過預測未來獎勵並更新預測值，從不完整的序列中學習，無需等待完整結果。

## 完整說明

時序差分學習 (TD Learning) 是一種強化學習演算法，它通過從不完整的序列中學習來預測未來獎勵。與蒙地卡羅方法不同，TD 學習可以在 episode 結束前更新其預測，使其能夠在線上和連續環境中學習。它結合了動態規劃的抽樣和貝爾曼方程的更新。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/temporal-difference-learning
快查頁：https://aiterms.tw/terms/temporal-difference-learning
深度解說：https://aiterms.tw/learning/what-is-temporal-difference-learning