---
title: "最大平均差異（Maximum Mean Discrepancy）"
slug: maximum-mean-discrepancy
language: zh-TW
source: https://aiterms.tw/learning/what-is-maximum-mean-discrepancy
updated_at: 2026-07-04
tags: [機器學習, 模型評估, 統計方法, 最佳化, source:ipas]
ipas_term: true
type: deep-dive
---

# 最大平均差異 是什麼？

> 一種衡量兩個機率分佈之間差異的統計距離，常用於生成模型評估與領域適應。

## 核心概念
最大平均差異（Maximum Mean Discrepancy, MMD）是一種衡量兩個機率分佈之間距離的統計量，其核心思想是將兩個分佈的樣本點透過一個核函數（kernel function）映射到一個高維的再生核希爾伯特空間（Reproducing Kernel Hilbert Space, RKHS）中。在這個RKHS中，每個機率分佈都被其平均嵌入（mean embedding）所代表。MMD的定義就是這兩個平均嵌入之間的距離。如果兩個分佈相同，則它們的平均嵌入也相同，MMD值為零；反之，MMD值越大，表示兩個分佈的差異越大。這種方法允許我們在不顯式計算或估計分佈密度函數的情況下，直接比較分佈。核函數的選擇對於MMD的表現至關重要，它決定了資料點在高維空間中的表示方式以及距離的計算方式。常用的核函數包括高斯核（Gaussian kernel）和多項式核（Polynomial kernel）。

## 運作原理
MMD的運作原理基於核方法和RKHS的性質。給定兩個分佈 $P$ 和 $Q$，我們從中分別抽取樣本 $X = \{x_1, \dots, x_m\}$ 和 $Y = \{y_1, \dots, y_n\}$。MMD的計算步驟大致如下：
1.  **映射到RKHS**：使用一個預定義的核函數 $k(x, x')$，將每個資料點 $x$ 映射到RKHS中的一個特徵向量 $\phi(x)$。核函數 $k(x, x')$ 實際上是 $\langle \phi(x), \phi(x') \rangle$ 的內積。
2.  **計算平均嵌入**：對於分佈 $P$，其在RKHS中的平均嵌入估計為 $\mu_P = \frac{1}{m} \sum_{i=1}^m \phi(x_i)$。同理，對於分佈 $Q$，其平均嵌入估計為 $\mu_Q = \frac{1}{n} \sum_{j=1}^n \phi(y_j)$。
3.  **計算距離**：MMD的平方值被定義為這兩個平均嵌入在RKHS中的距離的平方：$MMD^2(P, Q) = \|\mu_P - \mu_Q\|^2_{RKHS}$。
這個距離可以透過核函數直接計算，而無需顯式地計算 $\phi(x)$。具體而言，$MMD^2(P, Q)$ 的無偏估計量可以表示為：
$MMD^2(P, Q) = \frac{1}{m(m-1)} \sum_{i \neq j} k(x_i, x_j) + \frac{1}{n(n-1)} \sum_{i \neq j} k(y_i, y_j) - \frac{2}{mn} \sum_{i,j} k(x_i, y_j)$
這個公式避免了在高維空間中直接操作，使得MMD在計算上是可行的。MMD的統計檢定特性也允許我們判斷兩個分佈是否「足夠不同」，這對於雙樣本檢定非常有用。

## 實際應用
MMD在機器學習領域有多種實際應用：
*   **生成模型評估**：在生成對抗網路（GANs）或變分自編碼器（VAEs）等生成模型中，MMD可以用來量化生成樣本分佈與真實資料分佈之間的差異。較小的MMD值通常表示生成品質越好，因為它意味著生成器能夠更好地捕捉真實資料的底層分佈。
*   **領域適應（Domain Adaptation）**：當訓練資料（源領域）和測試資料（目標領域）來自不同的分佈時，模型效能會下降。MMD可以用作正則化項，鼓勵模型學習一個特徵表示，使得源領域和目標領域的特徵分佈在新的特徵空間中盡可能接近，從而減少領域間的差異，提升模型在目標領域的泛化能力。
*   **雙樣本檢定（Two-Sample Test）**：MMD可以作為一種非參數統計檢定方法，用於判斷兩個給定資料集是否來自相同的底層分佈。這在品質控制、異常偵測或比較實驗組與對照組的資料分佈時非常有用。
*   **度量學習（Metric Learning）**：在某些度量學習任務中，MMD可以用來學習一個距離度量，使得相同類別的樣本分佈更接近，不同類別的樣本分佈更遠。
*   **公平性AI**：MMD可以應用於衡量不同群體（例如不同性別或種族）的資料分佈或模型輸出分佈是否存在顯著差異，從而幫助評估和改進AI系統的公平性。

## 常見誤區
使用MMD時，存在一些常見的誤區和挑戰：
*   **核函數的選擇**：MMD的效能對所選核函數非常敏感。不合適的核函數可能導致MMD無法有效捕捉分佈間的差異。例如，高斯核的帶寬參數（bandwidth）需要仔細調整，過大或過小都可能導致MMD失去區分能力。通常需要透過交叉驗證或啟發式方法來選擇最佳核函數和其參數。
*   **計算複雜度**：MMD的計算複雜度通常為 $O(N^2)$，其中 $N$ 是樣本總數。對於非常大的資料集，這可能導致計算成本過高。雖然存在一些近似方法（如隨機傅立葉特徵）可以降低複雜度，但它們可能會引入估計誤差。
*   **對異常值的敏感性**：MMD是基於樣本均值的距離，因此它可能對資料中的異常值比較敏感。少數極端值可能會顯著影響平均嵌入，進而影響MMD的計算結果。
*   **解釋性**：MMD值本身是一個標量，表示分佈間的「距離」。當MMD值較大時，它告訴我們兩個分佈不同，但它不直接提供關於這些差異具體在哪個維度或以何種方式存在的詳細資訊，這使得解釋差異的性質變得困難。

## 與相關技術的比較
MMD與其他衡量分佈距離的方法各有優勢和劣勢：
*   **與KL散度（Kullback-Leibler Divergence）**：
    *   **MMD**：非參數，不需要顯式估計分佈密度，對高維資料更具魯棒性，且是對稱的（$MMD(P,Q) = MMD(Q,P)$）。它能夠檢測出分佈的任意差異。
    *   **KL散度**：需要顯式估計分佈密度，這在高維空間中非常困難且不準確。它不對稱，且對分佈重疊度敏感，如果一個分佈在另一個分佈為零的區域有密度，KL散度可能為無窮大。
*   **與JS散度（Jensen-Shannon Divergence）**：
    *   **MMD**：同KL散度，非參數，對稱。
    *   **JS散度**：是KL散度的對稱和有界版本，但仍需要密度估計。在GANs中常用作損失函數，但其梯度在某些情況下可能消失。
*   **與Wasserstein距離（Earth Mover's Distance）**：
    *   **MMD**：計算效率相對較高（對於固定核），但對核函數選擇敏感。
    *   **Wasserstein距離**：在度量空間中定義，可以處理不重疊的分佈，且具有更好的梯度性質，在GANs中表現良好。然而，其原始計算複雜度更高，通常需要使用近似方法（如Sinkhorn演算法）或對偶形式來計算。Wasserstein距離在幾何上更直觀，可以看作是將一個分佈「移動」到另一個分佈所需的最小成本。
總體而言，MMD在不需要密度估計、處理高維資料和提供統計檢定能力方面具有優勢，使其成為許多機器學習任務中的有力工具。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### MMD與KL散度有何不同？

MMD與KL散度在衡量分佈差異上有本質區別。MMD是一種非參數方法，它將分佈映射到再生核希爾伯特空間中，透過比較其平均嵌入的距離來衡量差異，無需顯式估計分佈的機率密度函數，對高維資料更具魯棒性且是對稱的。而KL散度則是一種基於資訊理論的方法，它要求顯式地估計兩個分佈的機率密度函數，這在高維空間中通常非常困難且不準確。KL散度是不對稱的，且當一個分佈在另一個分佈為零的區域有密度時，其值可能為無窮大，這在某些情況下會導致不穩定的行為。

### 如何選擇MMD的核函數？

MMD的效能對核函數的選擇及其參數（如高斯核的帶寬）非常敏感。選擇合適的核函數是關鍵。對於大多數連續資料，高斯核（RBF核）是一個常見且有效的選擇，但其帶寬參數需要仔細調整。一種常見的啟發式方法是使用中位數法則（median heuristic），即將帶寬設定為所有樣本對之間距離的中位數。此外，也可以透過交叉驗證或網格搜索等方法來尋找最佳的核參數。對於不同類型的資料（如離散資料或圖資料），可能需要選擇特定的核函數，例如多項式核或圖核。在某些情況下，也可以使用多核學習（Multiple Kernel Learning）來組合多個核函數，以獲得更好的表現。

### MMD在生成對抗網路（GAN）中有何應用？

MMD在生成對抗網路（GAN）中主要有兩個應用方向。首先，它可以作為一種評估指標，用來量化GAN生成的樣本分佈與真實資料分佈之間的相似度。較小的MMD值表示生成器能夠更好地複製真實資料的特徵。其次，MMD也可以作為GAN的損失函數或正則化項。在MMD-GAN中，生成器和判別器被訓練來最小化MMD值，而非傳統的對抗損失。這種方法可以避免模式崩潰（mode collapse）問題，因為MMD能夠有效捕捉分佈的整體差異，鼓勵生成器覆蓋真實資料分佈的所有模式。此外，MMD的平滑性也可能提供更好的梯度性質，有助於訓練的穩定性。

---

深度解說頁：https://aiterms.tw/learning/what-is-maximum-mean-discrepancy
快查頁：https://aiterms.tw/terms/maximum-mean-discrepancy
最後更新：2026/07/04