RL（強化學習）是什麼？完整定義與解說

iPAS 高頻強化學習模型訓練

術語快查

搜尋意圖： 如果你在找「強化學習是什麼」、「強化學習會怎麼考」或「強化學習和相近概念差在哪」，先看這頁的定義、考點定位與延伸比較。

TL;DR： 強化學習是一種讓 AI 透過與環境互動，從獎勵和懲罰中學習，進而找到最佳行動策略的方法

實用情境： 適合用在 iPAS 複習、面試快查與閱讀 AI 文章時快速校正概念邊界。

下一步： 先讀完定義，再往下看範例考題與延伸比較，把概念轉成可作答的判斷。

你在玩遊戲或調整自動系統時，會不會發現它不是看標準答案，而是在試錯中越做越準？

你可以把強化學習想成小孩拿零用錢做選擇，做對就得到獎勵，做錯就少一點，AI 也是靠這種回饋慢慢學會該怎麼做。

它重要是因為很多任務沒有唯一正解，像下棋、導航、排程，都要看長期結果，不是只看當下那一步對不對。

容易混淆

強化學習 vs 監督式學習

強化學習靠獎勵和懲罰試錯監督式學習靠有答案的標籤學習最關鍵的區別是有沒有現成正解。

強化學習 vs 自我對弈

強化學習是整個學習框架自我對弈是用自己跟自己比賽來產生資料的方法最關鍵的區別是框架和訓練手法不同。

記住這句就好

沒有標準答案時，看長期回報，就用強化學習。

實際案例

遊戲 AI 練等 遊戲角色每一步都拿到分數或扣分，最後學會怎麼走位、怎麼出招，這就是強化學習最典型的場景。

機器人走迷宮 機器人每次撞牆就扣分，接近出口就加分，跑久了之後會慢慢學會走最短路。

算法與應用

核心元素通常是狀態、動作、獎勵、策略，模型要學的是在不同狀態下該做什麼動作。探索與利用是關鍵矛盾，太愛嘗試會浪費時間，太快固定答案又可能錯過更好的路。在實務上，DQN、Policy Gradient、Actor-Critic 都是常見做法，差別在於怎麼估計價值和更新策略。

情境判斷

Q1（直覺題）： 一個模型在棋類遊戲中，贏一局就加分、輸一局就扣分，這種學習方式屬於什麼？

這是強化學習，因為模型不是看標準答案，而是根據回饋慢慢調整策略。

Q2（判斷題）： 如果每一步都能立刻知道正確答案，還適合用強化學習嗎？

通常不優先。這種情況更像監督式學習，因為標籤已經存在，直接學對錯通常更快更穩。

iPAS 考題

Q：iPAS 常怎麼考強化學習？ A：通常會考名詞辨義和基本流程，例如狀態、動作、獎勵各代表什麼，或是 DQN 為什麼能處理較複雜的狀態空間。

常見問題

獎勵函數設計錯了會怎樣？

A：模型可能學到你不想要的行為，因為它只會最大化分數，不會自己理解你的真正目的。

DQN 在強化學習裡做什麼？

A：DQN 用深度神經網路近似 Q 值，讓模型可以處理更大的狀態空間。

自動駕駛為什麼常被拿來討論強化學習？

A：因為它要同時顧安全、效率和舒適，還要在長期回報下做決策，很適合拿來說明強化學習的難點。

範例考題

關於機器學習不同的學習模式，下列敘述何者錯誤？ 1. 監督式學習（Supervised Learning）透過已標註資料學習輸入與目標之間的對應關係，常見任務包含分類與數值預測。 2. 非監督式學習（Unsupervised Learning）雖不需標註資料，但通常需預先定義每筆資料的正確輸出類別以利模型收斂。 3. 半監督式學習（Semi-supervised Learning）在訓練過程中僅利用未標註資料進行特徵學習，並不涉及標註資料。 4. 自監督式學習（Self-supervised Learning）的訓練方式與監督式學習相同，皆需人工逐筆提供標註資料。 5. 強化式學習（Reinforcement Learning）透過與環境互動並依據回饋訊號調整策略，以優化決策行為。 6. 自監督式學習（Self-supervised Learning）通常利用資料本身產生訓練目標，以降低對人工標註資料的依賴。

A. 2、3、6
B. 2、4、5
C. 1、3、6
D. 2、3、4 ✓ 正確答案

解析：

敘述 2 錯誤：非監督式學習不需定義正確輸出類別。敘述 3 錯誤：半監督式學習同時使用標註和未標註資料，不是僅用未標註資料。敘述 4 錯誤：自監督式學習從資料本身產生訓練目標，不需人工逐筆標註。其餘敘述 1、5、6 皆正確。

某物流公司導入強化式學習（Reinforcement Learning）優化車隊調度。模型在系統運行過程中，會依據不同配送狀態動態調整行動選擇方式，使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為，最符合下列哪一項強化式學習核心機制？

A. 調整策略函數以改變行動選擇機率 ✓ 正確答案
B. 更新訓練資料分布以降低模型偏差
C. 重新分群狀態資料以識別決策類型
D. 建立正確決策標籤進行誤差修正

解析：

強化式學習的核心機制是透過策略函數（Policy）來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數，改變行動選擇的機率分佈，使決策逐步趨向最佳。

強化學習（Reinforcement Learning）是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

iPAS 考題

常見問題

範例考題

立即測驗

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

iPAS 考題

常見問題

相關術語

範例考題

延伸學習

看常見比較

找對應工具

立即測驗

資料來源與參考依據