什麼是 常態分佈(Normal Distribution)?

常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。

核心概念

常態分佈(Normal Distribution),又稱高斯分佈(Gaussian Distribution),是機率論中最重要的連續機率分佈之一。其核心概念圍繞著以下幾個關鍵點:

  • 鐘形曲線: 常態分佈的機率密度函數呈現一個對稱的鐘形曲線,曲線的最高點位於平均數的位置。
  • 平均數(μ): 代表數據的中心位置,決定了鐘形曲線的中心點。
  • 標準差(σ): 代表數據的分散程度,決定了鐘形曲線的寬度。標準差越大,曲線越寬,數據越分散;標準差越小,曲線越窄,數據越集中。
  • 68-95-99.7 法則: 在常態分佈中,約有 68% 的數據落在平均數的一個標準差範圍內,約有 95% 的數據落在平均數的兩個標準差範圍內,約有 99.7% 的數據落在平均數的三個標準差範圍內。這個法則也被稱為經驗法則。
  • 標準常態分佈: 平均數為 0,標準差為 1 的常態分佈,通常用 Z 表示。任何常態分佈都可以通過標準化轉換為標準常態分佈。

運作原理

常態分佈的運作原理基於中心極限定理(Central Limit Theorem)。中心極限定理指出,當大量獨立的隨機變數相加時,無論這些隨機變數本身的分布如何,它們的和的分布趨近於常態分佈。這解釋了為什麼常態分佈在自然界和社會科學中如此普遍。

常態分佈的機率密度函數(Probability Density Function, PDF)如下:

f(x) = (1 / (σ * sqrt(2π))) * exp(-((x - μ)^2) / (2 * σ^2))

其中:

  • x 是隨機變數的值。
  • μ 是平均數。
  • σ 是標準差。
  • π 是圓周率(約等於 3.14159)。
  • exp 是指數函數。

這個公式描述了在給定平均數和標準差的情況下,隨機變數 x 出現的機率密度。通過積分機率密度函數,可以計算出隨機變數落在特定區間內的機率。

實際應用

常態分佈在各個領域都有廣泛的應用:

  • 統計推論: 常態分佈是許多統計檢定和估計的基礎,例如 t 檢定、z 檢定和信賴區間的計算。
  • 機器學習: 許多機器學習演算法假設數據服從常態分佈,例如線性迴歸、邏輯迴歸和高斯混合模型。
  • 金融: 常態分佈被用於模擬股票價格、利率和其他金融變數的波動。
  • 自然科學: 常態分佈被用於描述測量誤差、物理現象和生物特徵的分布。
  • 品質控制: 常態分佈被用於監控生產過程,檢測異常值和控制產品品質。
  • 醫學: 常態分佈被用於分析生理數據,例如血壓、血糖和體重。

例如,在機器學習中,如果我們知道數據服從常態分佈,我們可以利用常態分佈的特性來進行數據預處理、模型訓練和異常檢測。例如,我們可以使用標準化(Standardization)將數據轉換為標準常態分佈,以便更好地訓練模型。

常見誤區

  • 所有數據都服從常態分佈: 這是最常見的誤區。雖然常態分佈很常見,但並非所有數據都服從常態分佈。在應用常態分佈之前,應該先檢驗數據是否符合常態分佈的假設。
  • 常態分佈一定是對稱的: 常態分佈的鐘形曲線必須是對稱的。如果數據分布不對稱,則不符合常態分佈的定義。
  • 平均數和標準差可以隨意設定: 平均數和標準差是常態分佈的兩個重要參數,它們決定了常態分佈的形狀和位置。在應用常態分佈時,應該根據實際數據來估計平均數和標準差。
  • 常態分佈可以用於預測未來: 常態分佈描述的是數據的分布情況,不能直接用於預測未來。雖然可以利用常態分佈進行統計推論,但預測未來需要更複雜的模型和方法。
  • 非常態分佈的數據無法分析: 即使數據不服從常態分佈,仍然可以使用其他統計方法進行分析。例如,可以使用非參數檢定或轉換數據使其更接近常態分佈。

總之,常態分佈是一個強大的工具,但需要理解其基本概念、運作原理和適用範圍,才能正確地應用它。

相關術語

常見問題

← 回到 常態分佈 快查頁

延伸學習

想看 常態分佈 的完整影片教學?前往 美第奇 AI 學院