資料科學團隊在模型訓練前,需對數值特徵進行正規化(Normalization)或標準化(Standardization)。為確保模型評估結果具真實性並避免資料洩漏(Data Leakage),下列何者為最適當的作法?
iPAS 考題解析
資料科學團隊在模型訓練前,需對數值特徵進行正規化(Normalization)或標準化(Standardization)。為確保模型評估結果具真實性並避免資料洩漏(Data Leakage),下列何者為最適當的作法?
- A. 於資料分割前,先對完整資料集計算統計量並進行標準化處理
- B. 先分割訓練資料(Training Data)和測試資料(Test Data),並各自獨立計算統計量後進行標準化
- C. 先分割訓練資料(Training Data)和測試資料(Test Data),僅以訓練資料計算統計量,再套用至測試資料 ✓ 正確答案
- D. 僅對訓練資料(Training Data)進行標準化處理,測試資料(Test Data)保持原始數值
詳細解析
為避免資料洩漏,應先分割資料,再僅使用訓練資料計算標準化的統計量(如均值、標準差),然後將相同的統計量套用到測試資料上。這樣測試資料的評估才能真實反映模型的泛化能力。
出題年份:115 難度:★★☆