某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習(RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?

iPAS 考題解析

某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習(RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?

  • A. 透過人工評估方式建立偏好資料,使模型的不同候選輸出可反映人類主觀品質差異
  • B. 訓練一個能依據人類偏好判斷輸出品質的模型,作為模型優化過程中的回饋依據
  • C. 依據品質評估結果,調整模型生成策略,使其輸出更符合偏好導向的行為表現
  • D. 以未標註語料為主進行長週期表示學習訓練,以提升模型基礎語言建模能力 ✓ 正確答案

詳細解析

RLHF 流程包含三個階段:收集人類偏好資料、訓練獎勵模型、用強化學習優化生成策略。以未標註語料進行基礎語言建模屬於預訓練階段,不屬於 RLHF 的技術活動。

出題年份:115 難度:★★☆