瀏覽 AITerms.tw 中標籤為「RLHF」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「RLHF」,共 3 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「RLHF」 ,共 3 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。
讓大型語言模型的行為與人類價值觀、意圖及社會規範一致的技術與方法體系。
強化學習中代理人用於表示自身行動策略的機制,區分當前被最佳化的策略與環境互動所用的策略。
根據用戶的個別偏好、歷史互動與明確反饋動態調整 AI 系統行為的個人化對齊技術。