什麼是線性迴歸法（Linear Regression）？

線性迴歸法是一種統計方法，用於建立自變數和應變數之間的線性關係模型。目標是找到最佳擬合線，以預測應變數的值。

核心概念

線性迴歸的核心概念是假設自變數和應變數之間存在線性關係。這意味著應變數的變化可以通過自變數的線性組合來解釋。線性迴歸模型試圖找到最佳的線性方程式，以描述這種關係。這個方程式通常表示為：

y = β₀ + β₁x₁ + β₂x₂ + ... + βₙxₙ + ε

其中：

線性迴歸的目標是找到最佳的迴歸係數 β₀, β₁, ..., βₙ，使得模型能夠最好地擬合訓練資料。通常使用最小平方誤差法（Ordinary Least Squares, OLS）來估計這些係數。

線性迴歸的運作原理基於最小化預測值和實際值之間的差異。最小平方誤差法是一種常用的方法，用於估計迴歸係數。其目標是找到一組係數，使得所有資料點的預測值與實際值之間的平方誤差之和最小。

具體步驟如下：

最小平方誤差法的數學原理是：

假設有 m 個資料點 (xᵢ, yᵢ)，其中 i = 1, 2, ..., m。線性迴歸模型的預測值為 ŷᵢ = β₀ + β₁xᵢ。最小平方誤差法的目標是最小化以下目標函數：

J(β₀, β₁) = Σ(yᵢ - ŷᵢ)² = Σ(yᵢ - (β₀ + β₁xᵢ))²

通過對 β₀ 和 β₁ 求偏導數，並令偏導數等於零，可以解出最佳的迴歸係數。

線性迴歸法廣泛應用於各種領域，以下是一些常見的應用場景：

例如，在房地產領域，可以使用線性迴歸模型來預測房價，其中自變數可以是房屋面積、房間數量、地理位置等。通過分析這些自變數與房價之間的關係，可以建立一個模型，用於預測新房屋的價格。

線性關係假設： 線性迴歸假設自變數和應變數之間存在線性關係。如果這種假設不成立，那麼線性迴歸模型的預測結果可能不準確。在這種情況下，可以考慮使用非線性迴歸模型或其他機器學習演算法。
多重共線性： 多重共線性是指自變數之間存在高度相關性。這會導致迴歸係數的估計不穩定，並影響模型的解釋能力。可以使用方差膨脹因子（Variance Inflation Factor, VIF）來檢測多重共線性，並採取相應的措施，例如刪除相關性高的自變數或使用正則化方法。
異常值： 異常值是指與其他資料點明顯不同的資料點。異常值會對迴歸模型的估計產生很大的影響。可以使用箱形圖或其他方法來檢測異常值，並採取相應的措施，例如刪除異常值或使用魯棒迴歸方法。
過擬合： 過擬合是指模型在訓練資料上表現良好，但在測試資料上表現不佳。這通常是由於模型過於複雜，學習了訓練資料中的雜訊。可以使用正則化方法（例如L1正則化、L2正則化）來防止過擬合。
忽略殘差分析： 殘差是指實際值與預測值之間的差異。殘差分析可以幫助檢查模型的假設是否成立。例如，如果殘差呈現非隨機模式，那麼可能需要重新考慮模型的形式或引入新的自變數。

延伸學習

想看線性迴歸法的完整影片教學？前往美第奇 AI 學院