什麼是常態分佈（Normal Distribution）？

常態分佈是一種連續機率分佈，其機率密度函數呈鐘形曲線，平均數、中位數和眾數相等，數據集中在平均值附近。

核心概念

常態分佈（Normal Distribution），又稱高斯分佈（Gaussian Distribution），是機率論中最重要的連續機率分佈之一。其核心概念圍繞著以下幾個關鍵點：

鐘形曲線： 常態分佈的機率密度函數呈現一個對稱的鐘形曲線，曲線的最高點位於平均數的位置。
平均數（μ）： 代表數據的中心位置，決定了鐘形曲線的中心點。
標準差（σ）： 代表數據的分散程度，決定了鐘形曲線的寬度。標準差越大，曲線越寬，數據越分散；標準差越小，曲線越窄，數據越集中。
68-95-99.7 法則： 在常態分佈中，約有 68% 的數據落在平均數的一個標準差範圍內，約有 95% 的數據落在平均數的兩個標準差範圍內，約有 99.7% 的數據落在平均數的三個標準差範圍內。這個法則也被稱為經驗法則。
標準常態分佈： 平均數為 0，標準差為 1 的常態分佈，通常用 Z 表示。任何常態分佈都可以通過標準化轉換為標準常態分佈。

常態分佈的運作原理基於中心極限定理（Central Limit Theorem）。中心極限定理指出，當大量獨立的隨機變數相加時，無論這些隨機變數本身的分布如何，它們的和的分布趨近於常態分佈。這解釋了為什麼常態分佈在自然界和社會科學中如此普遍。

常態分佈的機率密度函數（Probability Density Function, PDF）如下：

f(x) = (1 / (σ * sqrt(2π))) * exp(-((x - μ)^2) / (2 * σ^2))

其中：

這個公式描述了在給定平均數和標準差的情況下，隨機變數 x 出現的機率密度。通過積分機率密度函數，可以計算出隨機變數落在特定區間內的機率。

常態分佈在各個領域都有廣泛的應用：

例如，在機器學習中，如果我們知道數據服從常態分佈，我們可以利用常態分佈的特性來進行數據預處理、模型訓練和異常檢測。例如，我們可以使用標準化（Standardization）將數據轉換為標準常態分佈，以便更好地訓練模型。

所有數據都服從常態分佈： 這是最常見的誤區。雖然常態分佈很常見，但並非所有數據都服從常態分佈。在應用常態分佈之前，應該先檢驗數據是否符合常態分佈的假設。
常態分佈一定是對稱的： 常態分佈的鐘形曲線必須是對稱的。如果數據分布不對稱，則不符合常態分佈的定義。
平均數和標準差可以隨意設定： 平均數和標準差是常態分佈的兩個重要參數，它們決定了常態分佈的形狀和位置。在應用常態分佈時，應該根據實際數據來估計平均數和標準差。
常態分佈可以用於預測未來： 常態分佈描述的是數據的分布情況，不能直接用於預測未來。雖然可以利用常態分佈進行統計推論，但預測未來需要更複雜的模型和方法。
非常態分佈的數據無法分析： 即使數據不服從常態分佈，仍然可以使用其他統計方法進行分析。例如，可以使用非參數檢定或轉換數據使其更接近常態分佈。

總之，常態分佈是一個強大的工具，但需要理解其基本概念、運作原理和適用範圍，才能正確地應用它。

延伸學習

想看常態分佈的完整影片教學？前往美第奇 AI 學院