# 直接偏好優化（Direct Preference Optimization）

直接偏好優化（DPO）是一種直接利用人類偏好資料，優化語言模型，無需訓練獎勵模型的強化學習替代方案。

## 完整說明

直接偏好優化（Direct Preference Optimization, DPO）是一種簡化版的強化學習方法，用於訓練大型語言模型。它直接利用人類對不同模型輸出的偏好資料，優化語言模型，避免了傳統RLHF中訓練獎勵模型的步驟，從而降低了複雜性和訓練成本。常見應用包括提升對話系統、文本生成和程式碼生成的質量。

## 常見問題

### undefined



### undefined



### undefined



---

來源：https://aiterms.tw/terms/direct-preference-optimization
快查頁：https://aiterms.tw/terms/direct-preference-optimization
深度解說：https://aiterms.tw/learning/what-is-direct-preference-optimization