什麼是 探索與利用(Exploration vs Exploitation)?

探索與利用是強化學習中的權衡,探索是指嘗試新動作以發現潛在的更好策略,利用是指使用已知最佳策略以獲得最大獎勵。

核心概念

在強化學習中,「探索與利用」(Exploration vs. Exploitation) 是一個核心概念,它描述了智能體在學習過程中面臨的根本性權衡。智能體必須決定是探索未知的環境,以尋找潛在的更好策略,還是利用當前已知的最佳策略,以最大化其短期獎勵。

  • 探索 (Exploration): 指智能體嘗試新的、未知的動作,即使這些動作可能導致短期內的獎勵降低。探索的目的是發現環境中隱藏的機會,並學習到更有效的策略。例如,一個機器人學習導航時,可能會嘗試走一些陌生的路徑,即使這些路徑看起來不太理想,以便發現更短或更安全的路線。
  • 利用 (Exploitation): 指智能體選擇當前已知的最佳動作,以最大化其短期獎勵。利用的目的是充分利用已有的知識,並獲得盡可能多的獎勵。例如,一個推薦系統會向用戶推薦他們過去喜歡的商品,以提高用戶的購買概率。

探索與利用之間的權衡是一個複雜的問題,因為智能體需要在短期獎勵和長期獎勵之間做出選擇。過度探索可能導致智能體錯失獲得高獎勵的機會,而過度利用可能導致智能體陷入局部最優解,無法發現更好的策略。

運作原理

在強化學習中,有多種方法可以平衡探索與利用。以下是一些常見的策略:

  1. ε-greedy 策略: 這是一種簡單而有效的策略,它以 ε 的概率隨機選擇一個動作 (探索),以 1-ε 的概率選擇當前已知的最佳動作 (利用)。ε 是一個介於 0 和 1 之間的參數,用於控制探索的程度。較高的 ε 值意味著更多的探索,而較低的 ε 值意味著更多的利用。隨著學習的進行,可以逐漸降低 ε 的值,以減少探索並增加利用。

  2. Softmax 策略: 這種策略根據每個動作的價值分配概率。價值較高的動作被選擇的概率較高,但價值較低的動作仍然有被選擇的機會。Softmax 策略使用一個溫度參數 τ 來控制探索的程度。較高的 τ 值意味著更均勻的概率分布,從而導致更多的探索。較低的 τ 值意味著更集中的概率分布,從而導致更多的利用。公式如下:

    P(a|s) = exp(Q(s, a) / τ) / Σ exp(Q(s, a') / τ)

    其中:

    • P(a|s) 是在狀態 s 下選擇動作 a 的概率。
    • Q(s, a) 是在狀態 s 下執行動作 a 的價值。
    • τ 是溫度參數。
    • Σ exp(Q(s, a') / τ) 是對所有可能的動作 a' 的指數函數求和。
  3. 樂觀初始估計 (Optimistic Initial Values): 這種策略將所有動作的初始價值設置為一個較高的值。這鼓勵智能體在早期階段探索所有動作,因為即使是價值較低的動作也可能帶來更高的獎勵。隨著學習的進行,智能體會逐漸更新價值估計,並開始更多地利用已知的最佳動作。

  4. UCB (Upper Confidence Bound) 演算法: 這種演算法在選擇動作時考慮了動作的價值估計和不確定性。UCB 演算法選擇具有最高上置信界限的動作,該上置信界限是價值估計加上一個與不確定性成比例的項。這鼓勵智能體探索那些價值估計不確定性較高的動作,因為這些動作可能帶來更高的獎勵。

  5. Thompson Sampling: 這種演算法使用貝葉斯方法來維護每個動作的價值分布。在每個時間步,智能體從每個動作的價值分布中抽取一個樣本,並選擇具有最高樣本價值的動作。Thompson Sampling 是一種概率匹配算法,它根據每個動作的價值分布來選擇動作,從而實現了探索與利用之間的平衡。

實際應用

探索與利用的權衡在許多實際應用中都非常重要,包括:

  • 推薦系統: 推薦系統需要平衡向用戶推薦他們過去喜歡的商品 (利用) 和向用戶推薦他們可能感興趣的新商品 (探索)。
  • A/B 測試: A/B 測試用於比較兩個或多個版本的網頁或應用程序,以確定哪個版本更有效。A/B 測試需要平衡將流量導向當前表現最佳的版本 (利用) 和將流量導向其他版本以收集更多數據 (探索)。
  • 藥物開發: 藥物開發需要平衡測試已知的有效藥物 (利用) 和測試新的、未知的藥物 (探索)。
  • 機器人控制: 機器人控制需要平衡執行已知的最佳動作 (利用) 和嘗試新的動作以學習更有效的策略 (探索)。

常見誤區

  • 探索總是好的,利用總是壞的: 探索和利用都是必要的,智能體需要在兩者之間找到平衡。過度探索可能導致智能體錯失獲得高獎勵的機會,而過度利用可能導致智能體陷入局部最優解。
  • ε-greedy 策略是最好的探索策略: ε-greedy 策略是一種簡單而有效的策略,但它並非總是最好的。在某些情況下,更高級的探索策略,例如 UCB 演算法或 Thompson Sampling,可能更有效。
  • 探索與利用的權衡只存在於強化學習中: 探索與利用的權衡存在於許多不同的領域,包括統計學、經濟學和心理學。
  • 探索的程度應該始終保持不變: 探索的程度應該隨著學習的進行而變化。在早期階段,智能體應該更多地探索,以便發現環境中隱藏的機會。在後期階段,智能體應該更多地利用,以便獲得最大的累積獎勵。
  • 探索與利用的權衡是一個容易解決的問題: 探索與利用的權衡是一個複雜的問題,沒有一個通用的解決方案。最佳的探索策略取決於具體問題的特性。

相關術語

常見問題

← 回到 探索與利用 快查頁

延伸學習

想看 探索與利用 的完整影片教學?前往 美第奇 AI 學院