PD（機率分佈）是什麼？完整定義與解說

機器學習統計方法

術語快查

搜尋意圖： 如果你在找「機率分佈是什麼」或「機率分佈和相近概念差在哪」，先看這頁的短定義、完整說明與延伸比較。

TL;DR： 機率分佈描述了隨機變數所有可能取值及其對應的機率。它可以是離散的（例如二項分佈）或連續的（例如常態分佈）。

實用情境： 適合用在閱讀 AI 文章、產品文件或和同事討論時，先用一頁快速對齊概念。

下一步： 先讀完定義，再往下看範例考題與延伸比較，把概念轉成可作答的判斷。

你看天氣預報時，會不會不只想知道會不會下雨，還想知道晴天、陰天、下雨各有多大機會？

你可以把機率分佈想成一張可能性地圖，告訴你每個結果出現的機率，而不是只看單一答案。它讓你知道資料長什麼樣、模型該怎麼設計、以及不確定性有多大，所以是統計和機器學習的底層語言。

容易混淆

機率分佈 vs 單一機率值 單一機率值只說某一件事發生多大可能，機率分佈則把所有可能結果一起列出來。前者像看一個點，後者像看整張地圖。最關鍵的區別：一個是局部答案，一個是全貌。

離散分佈 vs 連續分佈 離散分佈處理可數的結果，例如擲骰子、是否成交。連續分佈處理可切得很細的數值，例如身高、等待時間。最關鍵的區別：前者數得完，後者看區間。

記住這句就好

看到一個結果不夠，要看整張可能性地圖。

實際案例

電商缺貨率 客服想知道某個商品下週會不會缺貨，不是只看單一銷量，而是看需求分佈。分佈越集中，庫存越容易估；分佈越分散，補貨就要留更多緩衝。

等待時間 排隊系統想估算顧客平均要等多久，會用等待時間的分佈來看尖峰與尾巴。這比只看平均值更有用，因為少數長等待會直接影響體驗。

算法與應用

離散分佈用機率質量函數，連續分佈用機率密度函數，前者算每個值的機率，後者看區間內的機率。平均數看中心，變異數看散布，兩者一起看，才知道資料是穩還是亂。實務上常先用直方圖觀察形狀，再決定要用哪一種分佈做建模。

情境判斷

Q1（直覺題）： 你要估計一間店每天來客數的可能範圍，該先想什麼？

→ 先想機率分佈，因為你要看的是「各種來客數各有多大機會」，不是只盯著一個平均值。

Q2（判斷題）： 同樣是機率分佈，遇到離散資料和連續資料可以用同一種做法嗎？

→ 不行，資料型態不同，離散資料看每個值的機率，連續資料看區間與密度，模型和圖形都會不一樣。

常見問題

如何判斷資料比較像哪一種分佈？

先看資料型態，再看直方圖、偏態和峰度，必要時再做假設檢定，沒有單一方法可以一眼判定。

機率分佈的參數在做什麼？

參數是在控制分佈的位置、寬窄與形狀，例如常態分佈的平均數和標準差。

為什麼模型訓練要在乎分佈？

因為資料分佈會影響損失函數、抽樣方法和不確定性估計，分佈看錯，後面很多步都會偏掉。

範例考題

某物流公司導入強化式學習（Reinforcement Learning）優化車隊調度。模型在系統運行過程中，會依據不同配送狀態動態調整行動選擇方式，使決策結果逐步朝較佳績效收斂。上述模型在學習過程中的調整行為，最符合下列哪一項強化式學習核心機制？

A. 調整策略函數以改變行動選擇機率 ✓ 正確答案
B. 更新訓練資料分布以降低模型偏差
C. 重新分群狀態資料以識別決策類型
D. 建立正確決策標籤進行誤差修正

解析：

強化式學習的核心機制是透過策略函數（Policy）來決定在不同狀態下選擇哪個行動。模型根據獲得的獎勵調整策略函數，改變行動選擇的機率分佈，使決策逐步趨向最佳。

某影音串流平台建立神經網路模型，用於預測使用者最可能感興趣的影片類型。模型輸出層需將結果轉換為各類別的機率分佈，以便系統依機率高低推薦內容。下列哪一種函數最適合用於模型輸出層？

A. Softmax 函數（Softmax Function） ✓ 正確答案
B. Sigmoid 函數（Sigmoid Function）
C. 線性函數（Linear Function）
D. ReLU 函數（Rectified Linear Unit Function）

解析：

Softmax 函數能將輸出轉換為機率分佈，使所有類別的機率總和為 1，適用於多類別分類問題。影片類型推薦需要在多個類別中選擇，Softmax 是最適合的輸出層函數。

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

常見問題

相關術語

範例考題

延伸學習

看常見比較

找對應工具

資料來源與參考依據