某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?
iPAS 考題解析
某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?
- A. 調整策略函數以改變行動選擇機率 ✓ 正確答案
- B. 更新訓練資料分布以降低模型偏差
- C. 重新分群狀態資料以識別決策類型
- D. 建立正確決策標籤進行誤差修正
詳細解析
強化式學習的核心機制是透過策略函數(Policy)來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數,改變行動選擇的機率分佈,使決策逐步趨向最佳。
出題年份:115 難度:★★☆