可驗證獎勵強化學習 RLVR (Reinforcement Learning with Verifiable Rewards)
透過可客觀驗證的獎勵信號(如數學題正確答案)訓練語言模型推理能力的強化學習方法。
強化學習推理模型後訓練
瀏覽 AITerms.tw 中標籤為「推理模型」的 AI 術語,快速找到定義、FAQ 與 iPAS 考試重點。
目前篩選:標籤「推理模型」,共 1 個術語。
同一術語可隸屬多個主題,因此主題數量會重複計算。
主題標籤
A-Z 快速導覽
目前篩選:標籤「推理模型」 ,共 1 個術語
清除篩選 同一術語可隸屬多個主題,因此主題數量會重複計算。