# 人類回饋強化學習（RLHF）

人類回饋強化學習（RLHF）是一種利用人類回饋訊號，訓練強化學習模型，使其行為更符合人類偏好的方法。

## 完整說明

人類回饋強化學習（Reinforcement Learning from Human Feedback, RLHF）是一種結合強化學習和人類回饋的訓練方法。它利用人類對模型輸出的偏好作為獎勵訊號，訓練強化學習模型，使其生成的內容更符合人類的期望。常見應用包括提升對話系統、文本生成和程式碼生成的質量。

## 常見問題

### undefined


### undefined


### undefined


---

來源：https://aiterms.tw/terms/rlhf
快查頁：https://aiterms.tw/terms/rlhf
深度解說：https://aiterms.tw/learning/what-is-rlhf