某公司欲建立員工離職風險預測模型,資料集中包含「年度績效分數」、「平均每月加班時數」、「年齡」等數值型特徵。由於各特徵的數值範圍差異極大(例如績效分數 1-5、加班時數 0-80、年齡 20-65),若直接輸入至使用梯度下降的邏輯迴歸(Logistic Regression)模型,可能導致模型收斂緩慢或權重偏斜。為提升模型訓練效率與準確度,下列哪一種特徵工程方法最適合應用於這些數值特徵?

iPAS 考題解析

某公司欲建立員工離職風險預測模型,資料集中包含「年度績效分數」、「平均每月加班時數」、「年齡」等數值型特徵。由於各特徵的數值範圍差異極大(例如績效分數 1-5、加班時數 0-80、年齡 20-65),若直接輸入至使用梯度下降的邏輯迴歸(Logistic Regression)模型,可能導致模型收斂緩慢或權重偏斜。為提升模型訓練效率與準確度,下列哪一種特徵工程方法最適合應用於這些數值特徵?

  • A. 布林轉換(Boolean Conversion);
  • B. 時間序列分解(Time Series Decomposition);
  • C. One-hot 編碼(One-hot Encoding);
  • D. 數值標準化(Numerical Standardization) ✓ 正確答案

詳細解析

當數值特徵的範圍差異極大時,梯度下降的收斂速度會受到影響,權重也可能偏斜。數值標準化(如 Z-score 或 Min-Max Scaling)將所有特徵縮放到相似的範圍,能有效改善收斂速度和模型效能。

出題年份:114 難度:★★☆