術語詞典

推理模型相關 AI 術語

瀏覽 AITerms.tw 中標籤為「推理模型」的 AI 術語，快速找到定義、FAQ 與 iPAS 考試重點。

目前篩選：標籤「推理模型」，共 1 個術語。

目前篩選：標籤「推理模型」，共 1 個術語

清除篩選同一術語可隸屬多個主題，因此主題數量會重複計算。

共找到 1 個術語標籤：推理模型清除條件

R

1 個術語

可驗證獎勵強化學習 RLVR (Reinforcement Learning with Verifiable Rewards)

透過可客觀驗證的獎勵信號（如數學題正確答案）訓練語言模型推理能力的強化學習方法。

強化學習推理模型後訓練

可驗證獎勵強化學習是什麼？→