某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力，但在回覆偏好一致性與組織規範遵循方面仍需優化，團隊因此規劃導入人類反饋強化學習（RLHF）流程，下列何者最不屬於 RLHF 階段的典型技術活動？

Question

Accepted Answer

D. 以未標註語料為主進行長週期表示學習訓練，以提升模型基礎語言建模能力。RLHF 流程包含三個階段：收集人類偏好資料、訓練獎勵模型、用強化學習優化生成策略。以未標註語料進行基礎語言建模屬於預訓練階段，不屬於 RLHF 的技術活動。

Answer

A. 透過人工評估方式建立偏好資料，使模型的不同候選輸出可反映人類主觀品質差異

Answer

B. 訓練一個能依據人類偏好判斷輸出品質的模型，作為模型優化過程中的回饋依據

Answer

C. 依據品質評估結果，調整模型生成策略，使其輸出更符合偏好導向的行為表現

Answer

D. 以未標註語料為主進行長週期表示學習訓練，以提升模型基礎語言建模能力

iPAS 考題解析