某保險公司建立 AI 理賠金額預測模型。歷史理賠資料經檢定後呈近似常態分佈,但仍存在少數極端高額案件。資料科學團隊在不破壞整體分佈特性的前提下,規劃進行離群值處理。下列何者最不適當?

iPAS 考題解析

某保險公司建立 AI 理賠金額預測模型。歷史理賠資料經檢定後呈近似常態分佈,但仍存在少數極端高額案件。資料科學團隊在不破壞整體分佈特性的前提下,規劃進行離群值處理。下列何者最不適當?

  • A. 依統計準則(如 Z-score 或 IQR)評估後,再決定是否調整或處理極端值
  • B. 採用截尾(Trimming)處理極端值,以提升模型穩定性
  • C. 使用 One-hot 編碼(One-hot Encoding)將離群值轉換為類別特徵以改善數值穩定性 ✓ 正確答案
  • D. 結合領域知識評估其合理性,再決定保留或修正

詳細解析

One-hot 編碼是用來將類別型特徵轉換為數值的方法,不適用於處理數值型的離群值。將數值離群值轉為類別特徵會破壞原始資料的數值意義,無法正確處理離群值問題。

出題年份:115 難度:★★☆