什麼是 常態分佈(Normal Distribution)?
常態分佈是一種連續機率分佈,其機率密度函數呈鐘形曲線,平均數、中位數和眾數相等,數據集中在平均值附近。
核心概念
常態分佈(Normal Distribution),又稱高斯分佈(Gaussian Distribution),是機率論中最重要的連續機率分佈之一。其核心概念圍繞著以下幾個關鍵點:
- 鐘形曲線: 常態分佈的機率密度函數呈現一個對稱的鐘形曲線,曲線的最高點位於平均數的位置。
- 平均數(μ): 代表數據的中心位置,決定了鐘形曲線的中心點。
- 標準差(σ): 代表數據的分散程度,決定了鐘形曲線的寬度。標準差越大,曲線越寬,數據越分散;標準差越小,曲線越窄,數據越集中。
- 68-95-99.7 法則: 在常態分佈中,約有 68% 的數據落在平均數的一個標準差範圍內,約有 95% 的數據落在平均數的兩個標準差範圍內,約有 99.7% 的數據落在平均數的三個標準差範圍內。這個法則也被稱為經驗法則。
- 標準常態分佈: 平均數為 0,標準差為 1 的常態分佈,通常用 Z 表示。任何常態分佈都可以通過標準化轉換為標準常態分佈。
運作原理
常態分佈的運作原理基於中心極限定理(Central Limit Theorem)。中心極限定理指出,當大量獨立的隨機變數相加時,無論這些隨機變數本身的分布如何,它們的和的分布趨近於常態分佈。這解釋了為什麼常態分佈在自然界和社會科學中如此普遍。
常態分佈的機率密度函數(Probability Density Function, PDF)如下:
f(x) = (1 / (σ * sqrt(2π))) * exp(-((x - μ)^2) / (2 * σ^2))
其中:
x是隨機變數的值。μ是平均數。σ是標準差。π是圓周率(約等於 3.14159)。exp是指數函數。
這個公式描述了在給定平均數和標準差的情況下,隨機變數 x 出現的機率密度。通過積分機率密度函數,可以計算出隨機變數落在特定區間內的機率。
實際應用
常態分佈在各個領域都有廣泛的應用:
- 統計推論: 常態分佈是許多統計檢定和估計的基礎,例如 t 檢定、z 檢定和信賴區間的計算。
- 機器學習: 許多機器學習演算法假設數據服從常態分佈,例如線性迴歸、邏輯迴歸和高斯混合模型。
- 金融: 常態分佈被用於模擬股票價格、利率和其他金融變數的波動。
- 自然科學: 常態分佈被用於描述測量誤差、物理現象和生物特徵的分布。
- 品質控制: 常態分佈被用於監控生產過程,檢測異常值和控制產品品質。
- 醫學: 常態分佈被用於分析生理數據,例如血壓、血糖和體重。
例如,在機器學習中,如果我們知道數據服從常態分佈,我們可以利用常態分佈的特性來進行數據預處理、模型訓練和異常檢測。例如,我們可以使用標準化(Standardization)將數據轉換為標準常態分佈,以便更好地訓練模型。
常見誤區
- 所有數據都服從常態分佈: 這是最常見的誤區。雖然常態分佈很常見,但並非所有數據都服從常態分佈。在應用常態分佈之前,應該先檢驗數據是否符合常態分佈的假設。
- 常態分佈一定是對稱的: 常態分佈的鐘形曲線必須是對稱的。如果數據分布不對稱,則不符合常態分佈的定義。
- 平均數和標準差可以隨意設定: 平均數和標準差是常態分佈的兩個重要參數,它們決定了常態分佈的形狀和位置。在應用常態分佈時,應該根據實際數據來估計平均數和標準差。
- 常態分佈可以用於預測未來: 常態分佈描述的是數據的分布情況,不能直接用於預測未來。雖然可以利用常態分佈進行統計推論,但預測未來需要更複雜的模型和方法。
- 非常態分佈的數據無法分析: 即使數據不服從常態分佈,仍然可以使用其他統計方法進行分析。例如,可以使用非參數檢定或轉換數據使其更接近常態分佈。
總之,常態分佈是一個強大的工具,但需要理解其基本概念、運作原理和適用範圍,才能正確地應用它。
相關術語
常見問題
延伸學習
想看 常態分佈 的完整影片教學?前往 美第奇 AI 學院