某零售業者建立顧客行為預測模型,資料集中包含「年消費金額」、「平均單筆交易金額」及「會員年資」等數值型特徵。資料分析顯示,部分金額特徵呈現高度偏態分布,少數樣本的數值顯著高於多數觀測值。為降低極端值對模型學習穩定性的影響,下列哪一種特徵工程方法最適合?
iPAS 考題解析
某零售業者建立顧客行為預測模型,資料集中包含「年消費金額」、「平均單筆交易金額」及「會員年資」等數值型特徵。資料分析顯示,部分金額特徵呈現高度偏態分布,少數樣本的數值顯著高於多數觀測值。為降低極端值對模型學習穩定性的影響,下列哪一種特徵工程方法最適合?
- A. 對數轉換(Log Transformation) ✓ 正確答案
- B. 區間化(Binning)
- C. One-hot 編碼(One-hot Encoding)
- D. 隨機重抽樣(Random Resampling)
詳細解析
對數轉換能有效壓縮高度偏態分布的資料範圍,使極端值的影響降低,讓資料分布更接近常態。這是處理右偏分布數值特徵最常用的特徵工程方法。
出題年份:115 難度:★★☆