強化學習(Reinforcement Learning)是什麼?

強化學習是一種讓 AI 透過與環境互動,從獎勵和懲罰中學習,進而找到最佳行動策略的方法|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

英文
Reinforcement Learning
主題標籤
強化學習、模型訓練、AI基礎
考點定位
高頻・初級
最後更新
2026/06/17
強化學習(Reinforcement Learning)是什麼? iPAS 高頻 強化學習模型訓練
術語快查

搜尋意圖: 如果你在找「強化學習 是什麼」、「強化學習 會怎麼考」或「強化學習 和相近概念差在哪」,先看這頁的定義、考點定位與延伸比較。

TL;DR: 強化學習是一種讓 AI 透過與環境互動,從獎勵和懲罰中學習,進而找到最佳行動策略的方法

實用情境: 適合用在 iPAS 複習、面試快查與閱讀 AI 文章時快速校正概念邊界。

下一步: 先讀完定義,再往下看範例考題與延伸比較,把概念轉成可作答的判斷。

你在玩遊戲或調整自動系統時,會不會發現它不是看標準答案,而是在試錯中越做越準?

你可以把強化學習想成小孩拿零用錢做選擇,做對就得到獎勵,做錯就少一點,AI 也是靠這種回饋慢慢學會該怎麼做。

它重要是因為很多任務沒有唯一正解,像下棋、導航、排程,都要看長期結果,不是只看當下那一步對不對。

容易混淆

強化學習 vs 監督式學習

強化學習靠獎勵和懲罰試錯 監督式學習靠有答案的標籤學習 最關鍵的區別是有沒有現成正解。

強化學習 vs 自我對弈

強化學習是整個學習框架 自我對弈是用自己跟自己比賽來產生資料的方法 最關鍵的區別是框架和訓練手法不同。

記住這句就好

沒有標準答案時,看長期回報,就用強化學習。

實際案例

遊戲 AI 練等 遊戲角色每一步都拿到分數或扣分,最後學會怎麼走位、怎麼出招,這就是強化學習最典型的場景。

機器人走迷宮 機器人每次撞牆就扣分,接近出口就加分,跑久了之後會慢慢學會走最短路。

算法與應用

核心元素通常是狀態、動作、獎勵、策略,模型要學的是在不同狀態下該做什麼動作。 探索與利用是關鍵矛盾,太愛嘗試會浪費時間,太快固定答案又可能錯過更好的路。 在實務上,DQN、Policy Gradient、Actor-Critic 都是常見做法,差別在於怎麼估計價值和更新策略。

情境判斷

Q1(直覺題): 一個模型在棋類遊戲中,贏一局就加分、輸一局就扣分,這種學習方式屬於什麼?

這是強化學習,因為模型不是看標準答案,而是根據回饋慢慢調整策略。

Q2(判斷題): 如果每一步都能立刻知道正確答案,還適合用強化學習嗎?

通常不優先。這種情況更像監督式學習,因為標籤已經存在,直接學對錯通常更快更穩。

iPAS 考題

Q:iPAS 常怎麼考強化學習? A:通常會考名詞辨義和基本流程,例如狀態、動作、獎勵各代表什麼,或是 DQN 為什麼能處理較複雜的狀態空間。

常見問題

獎勵函數設計錯了會怎樣?

A:模型可能學到你不想要的行為,因為它只會最大化分數,不會自己理解你的真正目的。

DQN 在強化學習裡做什麼?

A:DQN 用深度神經網路近似 Q 值,讓模型可以處理更大的狀態空間。

自動駕駛為什麼常被拿來討論強化學習?

A:因為它要同時顧安全、效率和舒適,還要在長期回報下做決策,很適合拿來說明強化學習的難點。

範例考題

關於機器學習不同的學習模式,下列敘述何者錯誤? 1. 監督式學習(Supervised Learning)透過已標註資料學習輸入與目標之間的對應關係,常見任務包含分類與數值預測。 2. 非監督式學習(Unsupervised Learning)雖不需標註資料,但通常需預先定義每筆資料的正確輸出類別以利模型收斂。 3. 半監督式學習(Semi-supervised Learning)在訓練過程中僅利用未標註資料進行特徵學習,並不涉及標註資料。 4. 自監督式學習(Self-supervised Learning)的訓練方式與監督式學習相同,皆需人工逐筆提供標註資料。 5. 強化式學習(Reinforcement Learning)透過與環境互動並依據回饋訊號調整策略,以優化決策行為。 6. 自監督式學習(Self-supervised Learning)通常利用資料本身產生訓練目標,以降低對人工標註資料的依賴。

  • A. 2、3、6
  • B. 2、4、5
  • C. 1、3、6
  • D. 2、3、4 ✓ 正確答案

解析:

敘述 2 錯誤:非監督式學習不需定義正確輸出類別。敘述 3 錯誤:半監督式學習同時使用標註和未標註資料,不是僅用未標註資料。敘述 4 錯誤:自監督式學習從資料本身產生訓練目標,不需人工逐筆標註。其餘敘述 1、5、6 皆正確。

某物流公司導入強化式學習(Reinforcement Learning)優化車隊調度。模型在系統運行過程中,會依據不同配送狀態動態調整行動選擇方式,使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為,最符合下列哪一項強化式學習核心機制?

  • A. 調整策略函數以改變行動選擇機率 ✓ 正確答案
  • B. 更新訓練資料分布以降低模型偏差
  • C. 重新分群狀態資料以識別決策類型
  • D. 建立正確決策標籤進行誤差修正

解析:

強化式學習的核心機制是透過策略函數(Policy)來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數,改變行動選擇的機率分佈,使決策逐步趨向最佳。