某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?

iPAS 考題解析

某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?

  • A. 調整策略函數以改變行動選擇機率 ✓ 正確答案
  • B. 更新訓練資料分布以降低模型偏差
  • C. 重新分群狀態資料以識別決策類型
  • D. 建立正確決策標籤進行誤差修正

詳細解析

強化式學習的核心機制是透過策略函數(Policy)來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數,改變行動選擇的機率分佈,使決策逐步趨向最佳。

出題年份:115 難度:★★☆