相關係數(Correlation)

相關係數衡量兩個變數之間線性關係的強度和方向,範圍從 -1 到 1。1 表示完全正相關,-1 表示完全負相關,0 表示沒有線性關係。

完整說明

核心概念

相關係數 (Correlation Coefficient) 是一種統計量,用於衡量兩個變數之間線性關係的強度和方向。與共變異數不同,相關係數是一個標準化的指標,其值介於 -1 到 +1 之間,這使得它可以更容易地比較不同資料集之間的關係強度。

  • +1 (完全正相關): 表示兩個變數之間存在完美的正線性關係。當一個變數增加時,另一個變數也以相同的比例增加。
  • -1 (完全負相關): 表示兩個變數之間存在完美的負線性關係。當一個變數增加時,另一個變數以相同的比例減少。
  • 0 (沒有線性相關): 表示兩個變數之間不存在線性關係。這並不意味著兩個變數之間沒有任何關係,只是它們之間不存在線性相關性。
  • 0 到 +1 之間的值: 表示正相關,數值越接近 +1,關係越強。
  • -1 到 0 之間的值: 表示負相關,數值越接近 -1,關係越強。

最常見的相關係數是皮爾森相關係數 (Pearson correlation coefficient),用於衡量兩個連續變數之間的線性關係。其公式如下:

r = Cov(X, Y) / (σX * σY)

其中:

  • r 是皮爾森相關係數。
  • Cov(X, Y)XY 的共變異數。
  • σXσYXY 的標準差。

除了皮爾森相關係數之外,還有其他類型的相關係數,例如斯皮爾曼等級相關係數 (Spearman's rank correlation coefficient),用於衡量兩個變數之間的單調關係(不一定是線性關係)。

運作原理

相關係數的計算基於共變異數和標準差。首先,計算兩個變數的共變異數,然後將其除以兩個變數的標準差的乘積。標準差衡量了每個變數的離散程度。通過將共變異數除以標準差的乘積,我們將其標準化到 -1 到 1 的範圍內。

相關係數的值表示兩個變數之間線性關係的強度和方向。值越接近 +1 或 -1,關係越強;值越接近 0,關係越弱。

需要注意的是,相關係數只能衡量線性關係。如果兩個變數之間存在非線性關係,則相關係數可能無法準確地反映它們之間的關係。例如,如果兩個變數之間存在二次關係,則相關係數可能接近 0,即使它們之間存在很強的關係。

實際應用

相關係數在許多領域都有應用,包括:

  • 金融: 用於衡量不同資產之間的相關性,以幫助投資組合多元化。例如,如果兩種資產的相關係數為負,則它們的價格傾向於朝相反的方向移動,這可以降低投資組合的整體風險。
  • 機器學習: 用於特徵選擇和降維。例如,可以選擇與目標變數具有高相關係數的特徵,因為這些特徵可能包含有關目標變數的重要資訊。
  • 醫學: 用於研究不同風險因素與疾病之間的關係。例如,可以研究吸煙與肺癌之間的相關性。
  • 社會科學: 用於研究不同社會變數之間的關係,例如教育程度與收入之間的相關性。
  • 行銷: 用於研究不同行銷活動與銷售額之間的關係。

常見誤區

  • 相關性不等於因果關係: 相關係數只能衡量兩個變數之間的線性關係,而不能證明一個變數導致另一個變數。即使兩個變數具有很高的相關係數,也可能存在其他因素導致它們一起變化,或者它們之間的關係是偶然的。這是一個非常重要的概念,經常被誤解。例如,冰淇淋的銷售額與犯罪率之間可能存在正相關,但這並不意味著吃冰淇淋會導致犯罪,或者犯罪會導致人們購買更多冰淇淋。更可能的是,這兩個變數都受到夏季氣溫的影響。
  • 相關係數只能衡量線性關係: 相關係數只能衡量兩個變數之間的線性關係。如果兩個變數之間存在非線性關係,則相關係數可能無法準確地反映它們之間的關係。在這種情況下,應該使用其他方法來分析它們之間的關係,例如散佈圖或非線性回歸。
  • 相關係數對離群值敏感: 離群值會對相關係數產生很大的影響。因此,在計算相關係數之前,應該檢查資料中是否存在離群值,並採取適當的措施來處理它們。
  • 相關係數的大小取決於資料的範圍: 相關係數的大小取決於資料的範圍。如果資料的範圍很小,則即使兩個變數之間存在很強的關係,相關係數也可能很小。相反,如果資料的範圍很大,則即使兩個變數之間存在很弱的關係,相關係數也可能很大。
  • 相關係數只能衡量兩個變數之間的關係: 相關係數只能衡量兩個變數之間的關係。如果需要衡量多個變數之間的關係,則需要使用其他方法,例如多元回歸或主成分分析。

相關術語

常見問題

延伸學習

深入了解 相關係數 的完整運作原理

延伸學習

想看 相關係數 的完整影片教學?前往 美第奇 AI 學院