某電商公司欲利用顧客行為資料建立消費預測模型,其中「會員等級」欄位包含「一般、白金、黑卡」三種類別。若模型採用梯度提升樹(Gradient Boosting Tree)演算法,資料科學家在進行特徵編碼時應特別注意下列何種情況?
iPAS 考題解析
某電商公司欲利用顧客行為資料建立消費預測模型,其中「會員等級」欄位包含「一般、白金、黑卡」三種類別。若模型採用梯度提升樹(Gradient Boosting Tree)演算法,資料科學家在進行特徵編碼時應特別注意下列何種情況?
- A. 應優先採用獨熱編碼(One-Hot Encoding),以減少類別之間的相依性與記憶體使用量
- B. 直接使用標籤編碼(Label Encoding)可能使模型誤判類別間存在順序關係,導致特徵重要性偏誤 ✓ 正確答案
- C. 使用目標編碼(Target Encoding)會自動消除過擬合(Overfitting)風險
- D. 若類別數量較少,建議先使用主成份分析(Principal Component Analysis, PCA)進行降維
詳細解析
對於「一般、白金、黑卡」這種名義類別,Label Encoding若以0、1、2表示,梯度提升樹可能誤以為存在0<1<2的順序關係,造成特徵重要性偏誤。若類別確實有序(如消費等級),則Label Encoding合理。
出題年份:114 難度:★★☆