某公司欲建立員工離職風險預測模型,資料集中包含「年度績效分數」、「平均每月加班時數」、「年齡」等數值型特徵。由於各特徵的數值範圍差異極大(例如績效分數1-5、加班時數0-80、年齡20-65),若直接輸入至使用梯度下降的邏輯迴歸(Logistic Regression)模型,可能導致模型收斂緩慢或權重偏斜。為提升模型訓練效率與準確度,下列哪一種特徵工程方法最適合應用於這些數值特徵?
iPAS 考題解析
某公司欲建立員工離職風險預測模型,資料集中包含「年度績效分數」、「平均每月加班時數」、「年齡」等數值型特徵。由於各特徵的數值範圍差異極大(例如績效分數1-5、加班時數0-80、年齡20-65),若直接輸入至使用梯度下降的邏輯迴歸(Logistic Regression)模型,可能導致模型收斂緩慢或權重偏斜。為提升模型訓練效率與準確度,下列哪一種特徵工程方法最適合應用於這些數值特徵?
- A. 布林轉換(Boolean Conversion);
- B. 時間序列分解(Time Series Decomposition);
- C. One-hot 編碼(One-hot Encoding);
- D. 數值標準化(Numerical Standardization) ✓ 正確答案
詳細解析
數值範圍差異大時,數值標準化(Numerical Standardization)能將特徵縮放到相近範圍,加速梯度下降(Gradient Descent)收斂並避免權重偏斜。
難度:★★☆