---
title: "資料驗證（Data Validation）"
slug: data-validation
language: zh-TW
source: https://aiterms.tw/terms/data-validation
updated_at: 2026-07-04
tags: [資料處理, 特徵工程, MLOps, 異常偵測, source:ipas]
ipas_term: true
---

# 資料驗證（Data Validation）

資料驗證是確保機器學習模型訓練與推論資料之準確性、完整性與格式正確性的自動化檢查過程，能有效防止異常數據污染系統。

## 完整說明

資料驗證是一種在資料工程與機器學習管線中不可或缺的品質控制機制，用於自動檢查並確認輸入資料是否符合預先定義的規則與統計分布。常見應用包括在特徵工程前過濾異常值、在持續訓練過程中偵測資料偏移，以及在線上推論系統中阻擋惡意輸入，確保模型預測的準確性。

## iPAS 考試出題分析

屬於未分類考範圍。

## 常見問題

### 資料驗證應該在機器學習管線的哪一個階段執行？

理想的狀態下，資料驗證不應侷限於單一階段，而應該以多層次防禦的形態嵌入整個生命週期。最關鍵的第一個檢查點是資料匯入階段，在外部資料進入內部系統前，必須進行嚴格的格式與綱要驗證。第二個重要節點是在特徵工程完成後、模型訓練開始前，此時需著重於統計分布的驗證，確保訓練資料沒有明顯的異常值或類別不平衡。最後，在模型上線後的推論階段，也必須實施即時的資料驗證，阻擋異常的輸入請求，並持續監控線上資料的分布是否偏離歷史訓練資料，以防範概念偏移。

### 如果資料驗證系統攔截了大量異常資料，團隊應該如何處置？

直接丟棄所有異常資料是最糟糕的做法，因為這可能會破壞資料的原始分布特徵，導致模型學到錯誤的偏見。正確的處理流程應該是先建立隔離區，將未通過驗證的資料暫存並標記錯誤類型。接著，資料工程團隊需要介入分析這些異常的根本原因。如果是因為上游資料來源的格式變更或感測器故障，應立即修復資料收集機制。若是偶發的雜訊，可以評估使用插值或預設值填補的策略進行資料復原。只有在確認這些資料完全無效且修復成本過高時，才應考慮將其捨棄，並在後續的模型評估中記錄這項偏差。

### 靜態的綱要驗證與動態的統計驗證有何本質區別？

靜態的綱要驗證主要關注資料的結構合法性，例如檢查某個欄位是否為整數、是否允許空值，或是字串是否符合特定的正規表示式。這類規則是固定的，不會隨時間改變。而動態的統計驗證則關注資料群體的特徵，它會計算資料批次的平均值、變異數或類別特徵的分佈比例，並將其與過去的基準線進行對比。在機器學習中，一個數值可能完全符合綱要的範圍限制，但如果近期資料的平均值突然大幅偏移，這對模型預測來說是嚴重的警訊，必須透過統計驗證才能及早發現。

---

來源：https://aiterms.tw/terms/data-validation
快查頁：https://aiterms.tw/terms/data-validation
最後更新：2026/07/04
深度解說：https://aiterms.tw/learning/what-is-data-validation