在零售業進行客戶行為分析時,資料倉儲中發現多個欄位儲存相同的購買金額資訊(例如:amount_usd、total_price、transaction_value),但其單位、命名慣例及格式不一致,進而導致特徵工程階段混淆模型輸入。針對此種跨欄位語義重疊與結構冗餘問題,下列哪一種資料處理策略最合適且具實務可行性?

iPAS 考題解析

在零售業進行客戶行為分析時,資料倉儲中發現多個欄位儲存相同的購買金額資訊(例如:amount_usd、total_price、transaction_value),但其單位、命名慣例及格式不一致,進而導致特徵工程階段混淆模型輸入。針對此種跨欄位語義重疊與結構冗餘問題,下列哪一種資料處理策略最合適且具實務可行性?

  • A. 利用資料探勘技術自動選擇資料集中對目標變數最敏感的欄位,其他欄位捨棄即可,避免過度清理干擾原始結構;
  • B. 保留所有相似欄位,交由高階模型(如Gradient Boosting或Deep Learning)自動學習特徵關聯,無需手動處理;
  • C. 建立欄位命名標準,統一金額單位與格式,進行欄位正規化與語義合併,減少重複資訊影響特徵重要性估計; ✓ 正確答案
  • D. 將重複欄位視為類別欄位,進行One-hot編碼(One-hot encoding)後輸入模型,以避免數值誤導模型學習過程

詳細解析

面對語義重疊的欄位(Semantic Overlap),建立欄位命名標準、統一格式並進行語義合併(Semantic Merge)是最合適的資料處理策略。

難度:★★★