---
title: "逐步迴歸分析（Stepwise Regression）"
slug: stepwise-regression
language: zh-TW
source: https://aiterms.tw/learning/what-is-stepwise-regression
updated_at: 2026-07-04
tags: [機器學習, 統計方法, 特徵工程, source:ipas]
ipas_term: true
type: deep-dive
---

# 逐步迴歸分析 是什麼？

> 逐步迴歸分析是一種特徵選擇演算法，透過反覆加入或移除自變數，建立預測目標變數的最佳統計模型。

## 核心概念

逐步迴歸分析旨在解決多重迴歸模型中常見的變數選擇難題。當我們在處理包含大量潛在預測變數的資料集時，如果將所有變數都納入模型，可能會面臨多種統計與運算上的挑戰。首先，過多的變數會導致模型變得極度複雜，這不僅降低了模型的可解釋性，更可能引發過度擬合的問題，也就是模型在訓練資料上表現優異，但面對未知的測試資料時預測能力卻大幅下降。其次，在許多真實世界的數據中，自變數之間往往存在著高度的相關性，這種現象被稱為共線性。嚴重的共線性會導致迴歸係數的估計變得極不穩定，甚至出現係數符號與實際邏輯相反的荒謬結果，使得模型難以用於解釋因果關係或影響方向。

在這種背景下，逐步迴歸分析提供了一種系統化且自動化的解決方案。它的核心哲學源於統計學中的奧卡姆剃刀原則，也就是在具備相同解釋能力的前提下，越簡單的模型越好。透過演算法的輔助，逐步迴歸分析試圖在包含大量特徵的候選集合中，找出一組最具解釋力且最精簡的變數組合，來建立最終的預測模型。這個過程本質上是一種啟發式的搜索策略，它不保證能找到全局最佳解，但能在合理的時間與運算資源內，給出一個具有實用價值的近似最佳模型。

從機器學習的角度來看，逐步迴歸分析可以被視為一種包裝式特徵選擇方法。與過濾式方法僅考慮特徵與目標變數之間的統計相關性不同，逐步迴歸分析會實際訓練預測模型，並根據模型在特定評估指標上的表現來決定特徵的去留。這使得它選出的特徵組合更契合所使用的模型架構，但相對地也會消耗較多的運算時間。傳統上，逐步迴歸主要應用於線性迴歸和羅吉斯迴歸等廣義線性模型，但其核心思想也能延伸至其他類型的機器學習演算法中。

## 運作原理

逐步迴歸分析的具體運作方式有多種不同的變體，但它們共同的基礎都是透過迭代的方式，逐步改變模型中的變數集合，直到滿足某個預先設定的停止條件為止。最常見的三種運作模式包括向前選擇、向後淘汰以及雙向逐步選擇。

向前選擇是從一個不包含任何自變數的空模型開始。在每一個反覆運算的步驟中，演算法會逐一測試所有尚未被納入模型的候選變數。測試的方式是將這些變數單獨加入當前的模型中，並計算加入後模型性能的提升程度。用來評估性能提升的常見指標包括統計檢定的 p 值、赤池資訊量準則或貝氏資訊量準則等。演算法會挑選出能讓模型性能獲得最大提升，且提升程度超過特定顯著水準門檻的變數，將其正式納入模型中。這個過程會不斷重複，直到剩下的候選變數都無法為模型帶來顯著的改善為止。

向後淘汰則是採取完全相反的路徑。它從一個包含所有候選自變數的全模型開始運作。在每一次的迭代中，演算法會評估模型中每一個現有變數的貢獻度。貢獻度的衡量標準通常是當該變數被移除時，模型性能的下降程度。如果某個變數的貢獻度微乎其微，例如其對應的 p 值大於預先設定的保留門檻，演算法就會將這個變數從模型中剔除。移除變數後，模型會使用剩餘的變數重新進行擬合，並再次評估所有變數。這個淘汰過程會持續進行，直到模型中所有的變數都具有統計上的顯著重要性，也就是沒有任何變數符合被剔除的條件為止。

雙向逐步選擇則是結合了向前選擇與向後淘汰的機制，這也是多數統計軟體中稱為逐步迴歸的預設運作方式。它通常從空模型出發，如同向前選擇一般逐步加入變數。然而，與單純向前選擇不同的是，雙向逐步選擇在每次加入一個新變數之後，都會立刻執行一次類似向後淘汰的檢查程序。這是因為新變數的加入可能會改變原有變數之間的共線性結構，使得原本看似重要的變數變得不再重要。透過這種機制，演算法可以動態地調整模型結構，將那些因為新特徵引入而變得冗餘的特徵移除。這種方法能夠更靈活地探索特徵空間，通常能得到比單一方向選擇更穩健的模型。評估準則如赤池資訊量準則在雙向選擇中特別有用，因為它同時考量了模型的解釋力與複雜度，透過懲罰過多的參數來避免過度擬合。

## 實際應用

逐步迴歸分析在許多仰賴數據驅動決策的領域中扮演著關鍵角色。在生物資訊學與基因體學中，研究人員經常面臨樣本數量有限，但特徵維度極高的挑戰，例如分析數以萬計的基因表現數據以尋找與特定疾病相關的生物標記。由於無法建立包含所有基因的全模型，向前選擇或其變體成為了縮小研究範圍的有效工具。透過逐步篩選出與疾病狀態最具相關性的少數基因，研究人員可以大幅降低後續實驗驗證的成本，並聚焦於潛在的核心致病機制。

在金融與風險管理領域，信用評分模型的開發經常使用羅吉斯迴歸搭配逐步選擇技術。銀行需要評估客戶違約的可能性，而潛在的預測變數可能包括客戶的年齡、收入、負債比、過去的還款紀錄、職業類別等數十甚至數百項特徵。逐步迴歸分析協助資料科學家從這些繁雜的資訊中，淬煉出最具區分力的變數組合。這不僅有助於建立預測準確的模型，更重要的是確保模型的決策邏輯透明且具備可解釋性，這對於符合金融監理機關的合規性要求至關重要。

在行銷分析中，企業希望能精準預測消費者的購買行為或顧客流失率。透過收集顧客的交易歷史、網站瀏覽軌跡、人口統計資料等大量變數，分析師可以利用向後淘汰法，從全盤的數據中逐步剔除不具影響力的噪音變數。這有助於行銷團隊識別出真正驅動顧客決策的關鍵因素，進而制定更精準的個人化行銷策略，例如針對特定行為模式的客群發送促銷訊息，以最大化行銷投資報酬率。

儘管在現代深度學習與複雜機器學習模型盛行的今日，逐步迴歸分析在高度非線性預測任務上的表現可能不如樹狀模型或神經網路。然而，在以線性模型為基礎的基礎建設中，它仍然是特徵工程階段的強大輔助工具。在許多機器學習流水線中，資料工程師會先使用逐步迴歸進行初步的變數篩選，降低資料維度後，再將精簡過的特徵輸入到更複雜的演算法中進行訓練，藉此兼顧運算效率與模型性能。

## 常見誤區

儘管逐步迴歸分析看似直觀且易於實作，但其在理論基礎與實務應用上存在諸多限制與陷阱，若未能充分理解，極易導致分析結果的誤判。首先，逐步迴歸本質上是一種貪婪演算法，它在每一個步驟中只尋求當下的最佳選擇，而無法綜觀全局。這意味著它最終選出的變數組合，並不保證是所有可能變數組合中表現最好的一個。有時，兩個各自預測能力平庸的變數，若能同時納入模型，可能會產生強大的交互作用；但貪婪演算法可能在早期步驟就將它們雙雙淘汰，錯失了發現隱藏模式的機會。

其次，傳統逐步迴歸分析高度依賴 p 值或 F 檢定來決定變數的去留，但這種做法在多重檢定的情境下存在嚴重的統計瑕疵。因為演算法在同一個資料集上進行了大量的假設檢定，這會大幅增加第一型錯誤的發生機率，也就是將原本毫無關聯的變數誤認為具有顯著影響力。這種現象會導致選出的模型過度擬合訓練資料，雖然在訓練集上能獲得極高的解釋力，但模型的泛化能力卻極差，在面對新數據時的預測準確度會大幅崩跌。此外，由於最終模型是經過一連串資料依賴的篩選過程所建立，其所輸出的標準誤與信賴區間通常會被低估，導致研究者對模型結果產生錯誤的信心。

資料品質與極端值對逐步迴歸的影響也常被忽略。逐步選擇的過程對局部資料特徵非常敏感，即使是少數幾個極端值，也可能嚴重扭曲變數的顯著性評估，進而改變整個特徵選擇的路徑與最終結果。不同樣本的微小差異，有時會導致逐步迴歸選出完全不同的變數集合，顯示其模型穩定度較低。

許多使用者誤以為逐步迴歸選出的變數就是所有影響目標變數的真正原因，這是一個危險的因果推論謬誤。逐步迴歸僅能找出統計上的相關性，無法證實因果關係。被剔除的變數未必沒有實際作用，它們可能只是因為與其他被保留的變數存在共線性，其資訊已經被代表，因而在統計模型中顯得多餘。若未經領域知識的驗證，盲目相信逐步迴歸的結果來制定政策，可能會導致嚴重的策略失誤。

## 與相關技術的比較

在討論特徵選擇與模型降維時，逐步迴歸分析經常被拿來與其他進階的統計與機器學習技術進行比較。理解它們之間的差異，有助於在不同的資料情境下選擇最合適的工具。

最佳子集選擇是另一種傳統的方法，它會窮舉所有可能的變數組合，並評估每一個組合的模型表現，從中挑選出最佳者。相較於逐步迴歸的貪婪搜索策略，最佳子集選擇保證能找到全局最佳模型。然而，當候選變數數量增加時，可能的組合數會呈現指數級別的爆炸性增長，這使得最佳子集選擇在計算上變得完全不可行。因此，逐步迴歸可以被視為是在計算資源限制下，對最佳子集選擇的一種妥協與近似。

近年來，正規化迴歸方法如 Lasso 迴歸與 Ridge 迴歸，在許多資料科學應用中逐漸取代了傳統的逐步迴歸分析。Lasso 迴歸透過在損失函數中加入 L1 懲罰項，能夠在估計迴歸係數的同時，將不重要變數的係數直接壓縮至零。這種機制使得 Lasso 迴歸能夠一次性完成模型擬合與特徵選擇，不僅運算效率更高，更重要的是，它具備更穩健的數學基礎，能夠有效處理多重共線性問題，並降低過度擬合的風險。與逐步迴歸那種非黑即白的離散式特徵選擇不同，Lasso 迴歸提供了一種連續的縮減過程，通常能產生預測能力更穩定的模型。彈性網路則結合了 Lasso 與 Ridge 的優點，在面對高度相關的特徵群組時表現更為出色。

主成份分析則是另一種處理高維度數據的常見降維技術。與逐步迴歸直接篩選原始變數不同，主成份分析透過線性轉換，將原始的相關變數組合成少數幾個互不相關的人工變數，稱為主成份。這些主成份能夠最大程度地保留原始數據的變異資訊。主成份分析的優勢在於它能有效消除共線性並降低維度，但其代價是新產生的主成份往往缺乏明確的實體意義，導致最終模型難以解釋。如果分析的首要目標是理解各個原始特徵的具體影響力，保留原始特徵的逐步迴歸或 Lasso 迴歸通常是較好的選擇。

樹狀模型與隨機森林等集成學習演算法，本身就內建了特徵重要性評估機制。在構建決策樹的過程中，演算法會自動尋找最具資訊增益的特徵進行資料分割。透過匯總大量決策樹的特徵使用頻率與貢獻度，隨機森林可以輸出各個變數的重要性排序。這種方法不僅能處理非線性關係，對極端值也較不敏感，且不需要像逐步迴歸那樣依賴嚴格的統計假設。然而，在解釋特徵與目標變數之間的具體方向與線性影響程度時，線性模型的結構仍然具有其獨特的優勢。在實際的工程實踐中，資料科學家通常會根據任務對模型解釋力、運算資源以及預測準確度的不同要求，靈活運用或結合這些不同的技術。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 逐步迴歸分析是否能夠解決多重共線性的問題？

逐步迴歸分析雖然可以在一定程度上緩解多重共線性，但它並不是解決此問題的最佳工具。當自變數之間存在高度相關性時，向前選擇或向後淘汰的過程可能會變得極不穩定。某一個變數是否被選入模型，可能僅僅取決於微小的資料波動。在嚴重的共線性情況下，演算法可能會選出錯誤的代表性變數，甚至導致保留的變數係數估計失真。對於存在強烈共線性的資料集，通常更建議使用主成份分析進行特徵轉換，或採用具備 L2 正規化的 Ridge 迴歸與彈性網路，這些方法能更穩健地處理變數間的依賴關係，避免單純依賴逐步篩選所帶來的風險。

### 為什麼現代機器學習實務中越來越少使用傳統的逐步迴歸分析？

現代機器學習實務逐漸傾向使用正規化技術（如 Lasso 迴歸）而非傳統逐步迴歸，主要原因在於逐步迴歸存在幾個固有的統計缺陷。逐步迴歸基於貪婪演算法，容易陷入局部最佳解；頻繁的假設檢定會大幅增加偽陽性錯誤率，導致模型過度擬合。此外，由於特徵選擇過程沒有被納入標準誤的計算中，傳統逐步迴歸輸出的信賴區間往往過度自信。相比之下，Lasso 迴歸不僅能同時完成參數估計與特徵選擇，在數學理論上也更加嚴謹，面對高維度數據時能展現出更穩定的泛化能力，因此在許多資料科學專案中被廣泛應用。

### 在什麼樣的情境下，使用逐步迴歸分析仍然是個合理的決定？

儘管逐步迴歸有其限制，但在某些特定情境下仍然是一個合理的分析工具。例如，當資料維度適中，且研究重點在於快速探索變數關係並建立一個易於解釋的基礎線性模型時，逐步迴歸能提供直觀的特徵篩選路徑。在傳統統計領域，如果模型建構的目的是為了進行探索性資料分析，而非精準的機器學習預測，逐步迴歸配合赤池資訊量準則可以幫助研究者初步掌握變數的相對重要性。此外，在某些嚴格要求模型決策邏輯必須完全透明，且只能使用簡單線性公式的合規性應用中，雙向逐步選擇仍是一種可接受的實務做法。

---

深度解說頁：https://aiterms.tw/learning/what-is-stepwise-regression
快查頁：https://aiterms.tw/terms/stepwise-regression
最後更新：2026/07/04