什麼是 最大似然估計(Maximum Likelihood Estimation)?

最大似然估計 (MLE) 是一種統計方法,用於估計機率分佈的參數,它通過最大化觀察到樣本數據的似然函數來實現。

核心概念

最大似然估計 (Maximum Likelihood Estimation, MLE) 是一種頻率學派的參數估計方法。它基於這樣一個理念:我們觀察到的數據是最有可能發生的。因此,我們要找到一組參數,使得在這些參數下,觀察到現有數據的可能性最大。

  • 似然函數 (Likelihood Function): 似然函數是 MLE 的核心。它衡量了在給定一組參數下,觀察到特定數據集的機率。數學上,如果我們有數據集 D = {x1, x2, ..., xn},並且假設數據來自參數為 θ 的分佈 p(x|θ),那麼似然函數 L(θ|D) 定義為:

    L(θ|D) = p(x1|θ) * p(x2|θ) * ... * p(xn|θ)

    通常,為了簡化計算,我們會使用對數似然函數 log L(θ|D),因為對數函數是單調遞增的,最大化對數似然函數等價於最大化似然函數。

  • 參數估計: MLE 的目標是找到使似然函數(或對數似然函數)達到最大值的參數 θ。這通常通過求導並設置導數為零來實現。找到的 θ 值就是 MLE 估計值,記為 θ^。

運作原理

MLE 的運作原理可以概括為以下幾個步驟:

  1. 選擇機率模型: 首先,需要根據數據的特性選擇一個合適的機率分佈模型。例如,如果數據是連續的,可以選擇高斯分佈;如果數據是二元的,可以選擇伯努利分佈。

  2. 建立似然函數: 根據選擇的機率模型和已知的數據集,建立似然函數 L(θ|D)。

  3. 最大化似然函數: 找到使似然函數達到最大值的參數 θ。這通常通過以下方法實現:

    • 解析解: 對於某些簡單的模型,可以直接求出似然函數的導數,並設置導數為零,解出參數 θ 的解析表達式。
    • 數值優化: 對於更複雜的模型,可能無法求出解析解,需要使用數值優化方法,例如梯度下降法、牛頓法等,來尋找使似然函數達到最大值的參數 θ。
  4. 獲得參數估計: 找到的參數 θ 值就是 MLE 估計值 θ^。這個估計值是在給定數據下,最有可能產生這些數據的參數值。

舉例說明:

假設我們有一組數據,表示硬幣拋擲的結果,其中正面朝上的次數為 H,反面朝上的次數為 T。我們假設硬幣是公平的,正面朝上的機率為 p。那麼,我們可以建立伯努利分佈模型,並使用 MLE 來估計 p 的值。

似然函數為:L(p|H, T) = p^H * (1-p)^T

對數似然函數為:log L(p|H, T) = H * log(p) + T * log(1-p)

對 log L(p|H, T) 求導,並設置導數為零,可以得到:

p^ = H / (H + T)

這表示 MLE 估計的正面朝上的機率 p^ 等於正面朝上的次數除以總次數。

實際應用

MLE 在機器學習和統計學中有着廣泛的應用,包括:

  • 線性迴歸: 在線性迴歸中,可以使用 MLE 來估計迴歸係數和誤差項的方差。
  • 邏輯迴歸: 在邏輯迴歸中,可以使用 MLE 來估計邏輯迴歸模型的參數。
  • 高斯混合模型 (GMM): 在 GMM 中,可以使用 MLE 來估計每個高斯分佈的均值、方差和混合係數。
  • 隱馬爾可夫模型 (HMM): 在 HMM 中,可以使用 MLE 來估計狀態轉移機率和觀測機率。
  • 自然語言處理 (NLP): 在 NLP 中,MLE 可以用於估計語言模型的參數,例如 n-gram 模型的機率。

常見誤區

  • MLE 並不總是最好的估計方法: MLE 是一種常用的估計方法,但它並不是萬能的。在某些情況下,例如當數據量很小或者模型過於複雜時,MLE 可能會產生過擬合的問題。在這種情況下,可以考慮使用其他估計方法,例如貝葉斯估計。

  • MLE 假設數據來自某個已知分佈: MLE 的一個重要假設是數據來自某個已知分佈。如果這個假設不成立,MLE 的估計結果可能不準確。因此,在使用 MLE 之前,需要仔細檢查數據的特性,並選擇一個合適的機率模型。

  • MLE 只能估計參數,不能判斷模型是否正確: MLE 可以用於估計模型的參數,但它不能判斷模型本身是否正確。即使 MLE 估計的參數值很好,也不能保證模型是正確的。因此,在使用 MLE 之後,還需要使用其他方法來評估模型的性能,例如交叉驗證。

  • MLE 對異常值敏感: MLE 對異常值比較敏感,因為異常值會對似然函數產生很大的影響。因此,在使用 MLE 之前,需要仔細檢查數據,並處理異常值。

  • MLE 與最小二乘法 (Least Squares): 在某些特定情況下,MLE 與最小二乘法是等價的。例如,當數據來自高斯分佈,並且目標是估計均值時,MLE 的結果與最小二乘法的結果相同。然而,MLE 是一種更通用的方法,可以應用於更廣泛的模型和數據類型。

相關術語

常見問題

← 回到 最大似然估計 快查頁

延伸學習

想看 最大似然估計 的完整影片教學?前往 美第奇 AI 學院