# 獎勵建模（Reward Modeling）

獎勵建模是訓練AI模型以預測人類對不同結果的偏好，用於強化學習中，引導模型學習符合人類價值的行為。

## 完整說明

獎勵建模是一種訓練人工智慧模型，尤其是強化學習模型，以預測人類對不同結果或行為的偏好或價值的技術。其目標是創建一個獎勵函數，該函數能夠準確地反映人類的價值觀和目標，從而引導模型學習符合人類期望的行為。獎勵建模通常涉及收集人類的回饋數據，例如偏好比較或評分，然後使用這些數據來訓練一個預測模型。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/reward-modeling
快查頁：https://aiterms.tw/terms/reward-modeling
深度解說：https://aiterms.tw/learning/what-is-reward-modeling