某物流公司導入強化式學習（Reinforcement Learning）優化車隊調度。模型在系統運行過程中，會依據不同配送狀態動態調整行動選擇方式，使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為，最符合下列哪一項強化式學習核心機制？

Question

Accepted Answer

A. 調整策略函數以改變行動選擇機率。強化式學習的核心機制是透過策略函數（Policy）來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數，改變行動選擇的機率分佈，使決策逐步趨向最佳。

Answer

A. 調整策略函數以改變行動選擇機率

Answer

B. 更新訓練資料分布以降低模型偏差

Answer

C. 重新分群狀態資料以識別決策類型

Answer

D. 建立正確決策標籤進行誤差修正

iPAS 考題解析