什麼是 共變異數(Covariance)?
共變異數衡量兩個變數如何一起變化。正值表示它們趨於一起增加或減少,負值表示一個增加時另一個趨於減少,零值表示沒有線性關係。
核心概念
共變異數 (Covariance) 是一種統計量,用於衡量兩個隨機變數之間線性關係的強度和方向。它反映了兩個變數同時變化的程度。簡單來說,共變異數告訴我們,當一個變數偏離其平均值時,另一個變數是否也傾向於偏離其平均值,以及偏離的方向是否一致。
- 正共變異數: 表示兩個變數傾向於一起增加或減少。當一個變數高於其平均值時,另一個變數也傾向於高於其平均值;反之亦然。
- 負共變異數: 表示一個變數增加時,另一個變數傾向於減少。當一個變數高於其平均值時,另一個變數傾向於低於其平均值;反之亦然。
- 零共變異數: 表示兩個變數之間沒有線性關係。這並不意味著兩個變數之間沒有任何關係,只是它們之間不存在線性相關性。
共變異數的公式如下:
對於樣本資料:
Cov(X, Y) = Σ[(Xi - X̄)(Yi - Ȳ)] / (n - 1)
其中:
X和Y是兩個隨機變數。Xi和Yi是X和Y的個別觀測值。X̄和Ȳ是X和Y的樣本平均值。n是樣本大小。
對於母體資料:
Cov(X, Y) = Σ[(Xi - μX)(Yi - μY)] / N
其中:
μX和μY是X和Y的母體平均值。N是母體大小。
運作原理
共變異數的計算基於每個資料點與其對應變數平均值的偏差。對於每個資料點,我們計算 (Xi - X̄) 和 (Yi - Ȳ) 的乘積。如果兩個變數都高於或低於其平均值,則乘積為正;如果一個變數高於其平均值而另一個變數低於其平均值,則乘積為負。然後,我們將所有這些乘積加總,並除以樣本大小減一(對於樣本共變異數)或母體大小(對於母體共變異數)。
除以 n - 1(樣本共變異數)是為了提供對母體共變異數的無偏估計。這是因為使用樣本平均值估計母體平均值會引入偏差,而除以 n - 1 可以校正這種偏差。
共變異數的值取決於變數的尺度。因此,很難直接比較不同資料集的共變異數。例如,以公尺為單位的身高和以公斤為單位的體重之間的共變異數,與以公分為單位的身高和以克為單位的體重之間的共變異數,數值上會差異很大,即使它們描述的是相同的關係。
實際應用
共變異數在許多領域都有應用,包括:
- 金融: 用於衡量不同資產之間的相關性,以幫助投資組合多元化。例如,如果兩種資產的共變異數為負,則它們的價格傾向於朝相反的方向移動,這可以降低投資組合的整體風險。
- 機器學習: 用於特徵選擇和降維。例如,可以選擇與目標變數具有高共變異數的特徵,因為這些特徵可能包含有關目標變數的重要資訊。
- 影像處理: 用於影像分割和物件識別。例如,可以基於像素之間的共變異數將影像分割成不同的區域。
- 氣象學: 用於分析不同氣象變數之間的關係,例如溫度和降水量。
- 經濟學: 用於分析不同經濟指標之間的關係,例如通貨膨脹率和失業率。
常見誤區
- 共變異數不等於因果關係: 共變異數只能衡量兩個變數之間的線性關係,而不能證明一個變數導致另一個變數。即使兩個變數具有很高的共變異數,也可能存在其他因素導致它們一起變化,或者它們之間的關係是偶然的。
- 共變異數的大小難以解釋: 共變異數的值取決於變數的尺度,因此很難直接比較不同資料集的共變異數。為了克服這個問題,通常使用相關係數,它將共變異數標準化到 -1 到 1 的範圍內。
- 零共變異數不代表沒有關係: 零共變異數只表示兩個變數之間沒有線性關係。它們之間可能存在非線性關係,例如二次關係或指數關係。
- 共變異數對離群值敏感: 離群值會對共變異數產生很大的影響。因此,在計算共變異數之前,應該檢查資料中是否存在離群值,並採取適當的措施來處理它們。
- 共變異數只能衡量線性關係: 共變異數只能衡量兩個變數之間的線性關係。如果兩個變數之間存在非線性關係,則共變異數可能無法準確地反映它們之間的關係。
相關術語
常見問題
延伸學習
想看 共變異數 的完整影片教學?前往 美第奇 AI 學院