最大平均差異 是什麼?

Maximum Mean Discrepancy — 最大平均差異 的完整解釋

一種衡量兩個機率分佈之間差異的統計距離,常用於生成模型評估與領域適應。

核心概念

最大平均差異(Maximum Mean Discrepancy, MMD)是一種衡量兩個機率分佈之間距離的統計量,其核心思想是將兩個分佈的樣本點透過一個核函數(kernel function)映射到一個高維的再生核希爾伯特空間(Reproducing Kernel Hilbert Space, RKHS)中。在這個RKHS中,每個機率分佈都被其平均嵌入(mean embedding)所代表。MMD的定義就是這兩個平均嵌入之間的距離。如果兩個分佈相同,則它們的平均嵌入也相同,MMD值為零;反之,MMD值越大,表示兩個分佈的差異越大。這種方法允許我們在不顯式計算或估計分佈密度函數的情況下,直接比較分佈。核函數的選擇對於MMD的表現至關重要,它決定了資料點在高維空間中的表示方式以及距離的計算方式。常用的核函數包括高斯核(Gaussian kernel)和多項式核(Polynomial kernel)。

運作原理

MMD的運作原理基於核方法和RKHS的性質。給定兩個分佈 $P$ 和 $Q$,我們從中分別抽取樣本 $X = {x_1, \dots, x_m}$ 和 $Y = {y_1, \dots, y_n}$。MMD的計算步驟大致如下:

  1. 映射到RKHS:使用一個預定義的核函數 $k(x, x')$,將每個資料點 $x$ 映射到RKHS中的一個特徵向量 $\phi(x)$。核函數 $k(x, x')$ 實際上是 $\langle \phi(x), \phi(x') \rangle$ 的內積。
  2. 計算平均嵌入:對於分佈 $P$,其在RKHS中的平均嵌入估計為 $\mu_P = \frac{1}{m} \sum_{i=1}^m \phi(x_i)$。同理,對於分佈 $Q$,其平均嵌入估計為 $\mu_Q = \frac{1}{n} \sum_{j=1}^n \phi(y_j)$。
  3. 計算距離:MMD的平方值被定義為這兩個平均嵌入在RKHS中的距離的平方:$MMD^2(P, Q) = |\mu_P - \mu_Q|^2_{RKHS}$。 這個距離可以透過核函數直接計算,而無需顯式地計算 $\phi(x)$。具體而言,$MMD^2(P, Q)$ 的無偏估計量可以表示為: $MMD^2(P, Q) = \frac{1}{m(m-1)} \sum_{i \neq j} k(x_i, x_j) + \frac{1}{n(n-1)} \sum_{i \neq j} k(y_i, y_j) - \frac{2}{mn} \sum_{i,j} k(x_i, y_j)$ 這個公式避免了在高維空間中直接操作,使得MMD在計算上是可行的。MMD的統計檢定特性也允許我們判斷兩個分佈是否「足夠不同」,這對於雙樣本檢定非常有用。

實際應用

MMD在機器學習領域有多種實際應用:

  • 生成模型評估:在生成對抗網路(GANs)或變分自編碼器(VAEs)等生成模型中,MMD可以用來量化生成樣本分佈與真實資料分佈之間的差異。較小的MMD值通常表示生成品質越好,因為它意味著生成器能夠更好地捕捉真實資料的底層分佈。
  • 領域適應(Domain Adaptation):當訓練資料(源領域)和測試資料(目標領域)來自不同的分佈時,模型效能會下降。MMD可以用作正則化項,鼓勵模型學習一個特徵表示,使得源領域和目標領域的特徵分佈在新的特徵空間中盡可能接近,從而減少領域間的差異,提升模型在目標領域的泛化能力。
  • 雙樣本檢定(Two-Sample Test):MMD可以作為一種非參數統計檢定方法,用於判斷兩個給定資料集是否來自相同的底層分佈。這在品質控制、異常偵測或比較實驗組與對照組的資料分佈時非常有用。
  • 度量學習(Metric Learning):在某些度量學習任務中,MMD可以用來學習一個距離度量,使得相同類別的樣本分佈更接近,不同類別的樣本分佈更遠。
  • 公平性AI:MMD可以應用於衡量不同群體(例如不同性別或種族)的資料分佈或模型輸出分佈是否存在顯著差異,從而幫助評估和改進AI系統的公平性。

常見誤區

使用MMD時,存在一些常見的誤區和挑戰:

  • 核函數的選擇:MMD的效能對所選核函數非常敏感。不合適的核函數可能導致MMD無法有效捕捉分佈間的差異。例如,高斯核的帶寬參數(bandwidth)需要仔細調整,過大或過小都可能導致MMD失去區分能力。通常需要透過交叉驗證或啟發式方法來選擇最佳核函數和其參數。
  • 計算複雜度:MMD的計算複雜度通常為 $O(N^2)$,其中 $N$ 是樣本總數。對於非常大的資料集,這可能導致計算成本過高。雖然存在一些近似方法(如隨機傅立葉特徵)可以降低複雜度,但它們可能會引入估計誤差。
  • 對異常值的敏感性:MMD是基於樣本均值的距離,因此它可能對資料中的異常值比較敏感。少數極端值可能會顯著影響平均嵌入,進而影響MMD的計算結果。
  • 解釋性:MMD值本身是一個標量,表示分佈間的「距離」。當MMD值較大時,它告訴我們兩個分佈不同,但它不直接提供關於這些差異具體在哪個維度或以何種方式存在的詳細資訊,這使得解釋差異的性質變得困難。

與相關技術的比較

MMD與其他衡量分佈距離的方法各有優勢和劣勢:

  • 與KL散度(Kullback-Leibler Divergence)
    • MMD:非參數,不需要顯式估計分佈密度,對高維資料更具魯棒性,且是對稱的($MMD(P,Q) = MMD(Q,P)$)。它能夠檢測出分佈的任意差異。
    • KL散度:需要顯式估計分佈密度,這在高維空間中非常困難且不準確。它不對稱,且對分佈重疊度敏感,如果一個分佈在另一個分佈為零的區域有密度,KL散度可能為無窮大。
  • 與JS散度(Jensen-Shannon Divergence)
    • MMD:同KL散度,非參數,對稱。
    • JS散度:是KL散度的對稱和有界版本,但仍需要密度估計。在GANs中常用作損失函數,但其梯度在某些情況下可能消失。
  • 與Wasserstein距離(Earth Mover's Distance)
    • MMD:計算效率相對較高(對於固定核),但對核函數選擇敏感。
    • Wasserstein距離:在度量空間中定義,可以處理不重疊的分佈,且具有更好的梯度性質,在GANs中表現良好。然而,其原始計算複雜度更高,通常需要使用近似方法(如Sinkhorn演算法)或對偶形式來計算。Wasserstein距離在幾何上更直觀,可以看作是將一個分佈「移動」到另一個分佈所需的最小成本。 總體而言,MMD在不需要密度估計、處理高維資料和提供統計檢定能力方面具有優勢,使其成為許多機器學習任務中的有力工具。

最大平均差異 在 iPAS 考試中的重點

根據歷年統計,最大平均差異 相關題目 屬於未分類考範圍。

常見問題

資料來源

← 回到 最大平均差異 快查頁

測驗你對 最大平均差異 的理解

透過模擬考系統檢驗學習成果

開始測驗