---
title: "共變數偏移（Covariate Drift）"
slug: covariate-drift
language: zh-TW
source: https://aiterms.tw/terms/covariate-drift
updated_at: 2026-07-04
tags: [機器學習, 模型部署, 特徵工程, 模型評估, source:ipas]
ipas_term: true
---

# 共變數偏移（Covariate Drift）

共變數偏移是指機器學習模型在訓練與推論階段，輸入特徵的資料分佈發生改變，但給定特徵下的目標變數條件分佈保持不變的現象。

## 完整說明

共變數偏移是一種資料集偏移現象，發生在機器學習模型的訓練資料與實際應用時的輸入資料特徵分佈不一致時，但給定特徵的預測目標機率不變。它會導致模型在生產環境的預測準確度下降。常見處置方式包括及早建立監控系統偵測特徵分佈變化，並透過重新加權訓練資料或持續學習來減輕影響。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 發現模型發生共變數偏移時，第一步應該做什麼？

當監控系統警示或手動分析發現共變數偏移時，第一步應該是進行嚴謹的資料診斷與特徵歸因分析，而不是立刻重新訓練模型。首先，需要確認資料收集管線是否正常運作，排除因為感測器故障、資料傳輸遺失或特徵工程程式碼錯誤所造成的人為分佈異常。確認資料無誤後，接著應利用統計檢定或特徵重要性分析，找出具體是哪些特徵發生了最顯著的偏移。將這些發生偏移的特徵與領域知識結合，理解分佈改變的物理或商業意義。例如，某個特徵變化是否反映了市場策略的調整或季節的交替。完成這些診斷後，才能決定適當的應對策略，如重新加權或收集新資料。

### 重要性加權（Importance Weighting）在處理共變數偏移時有什麼潛在的缺點？

重要性加權雖然是處理共變數偏移的經典方法，但在實務上存在幾個顯著的挑戰與潛在缺點。首先，計算權重依賴於準確估計訓練集與測試集的密度比值。在高維度特徵空間中，密度估計極具挑戰性，容易產生極端大或接近零的權重。這會導致模型訓練變得不穩定，過度依賴少數權重極高的樣本，反而增加變異並降低泛化能力。其次，重要性加權假設測試集中出現的特徵模式在訓練集中也必須至少存在少數樣本。如果測試集出現了訓練集完全沒有涵蓋的全新特徵區域，權重計算將會失效。在這種情況下，僅靠加權無法解決問題，必須透過領域自適應或收集新資料來應對。

### 如何在模型開發初期就建立對共變數偏移的抵抗能力？

在模型開發初期建立抵抗力，關鍵在於特徵工程與架構設計的防禦性思維。首先，在選擇特徵時，應優先考慮那些具有因果關係或物理意義的穩健特徵，避免使用過於依賴特定時間背景或環境設定的脆弱特徵。其次，可以引入領域對抗訓練的架構，在訓練過程中迫使模型學習無法區分不同資料來源環境的特徵表示，從而提取出真正通用的底層模式。此外，建構多樣化的訓練集至關重要。可以利用資料擴增技術或生成模型，模擬未來可能發生的特徵分佈變化，讓模型提前學習應對。最後，在模型評估階段，應根據關鍵特徵進行分群評估，確保模型在不同特徵子群體上都能保持穩定。

---

來源：https://aiterms.tw/terms/covariate-drift
快查頁：https://aiterms.tw/terms/covariate-drift
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-covariate-drift