某企業導入大型語言模型（LLM）進行客服自動化，並已透過 Fine-Tuning 學習企業標準問答範例，但在實務運作中仍出現回應策略未符合服務優先順序及語氣與品牌風格不一致的情況，因此技術團隊建議再導入 Reinforcement Fine-tuning（RFT）機制進行優化，其主要目的為何？

Question

Accepted Answer

B. 透過 reward 訊號調整模型回應策略與行為偏好。Reinforcement Fine-tuning（RFT）的主要目的是透過 reward 訊號（獎勵信號）來調整模型的回應策略與行為偏好，使其更符合期望的服務優先順序與品牌風格。

Answer

A. 擴展模型的知識涵蓋範圍與資料記憶能力

Answer

B. 透過 reward 訊號調整模型回應策略與行為偏好

Answer

C. 提升模型推論速度與降低回應延遲

Answer

D. 降低 prompt 設計複雜度並取代訓練流程

iPAS 考題解析