在零售業進行客戶行為分析時，資料倉儲中發現多個欄位儲存相同的購買金額資訊(例如:amount_usd、total_price、transaction_value)，但其單位、命名慣例及格式不一致，進而導致特徵工程階段混淆模型輸入。針對此種跨欄位語義重疊與結構冗餘問題，下列哪一種資料處理策略最合適且具實務可行性？

Question

Accepted Answer

C. 建立欄位命名標準，統一金額單位與格式，進行欄位正規化與語義合併，減少重複資訊影響特徵重要性估計；。面對語義重疊的欄位（Semantic Overlap），建立欄位命名標準、統一格式並進行語義合併（Semantic Merge）是最合適的資料處理策略。

Answer

A. 利用資料探勘技術自動選擇資料集中對目標變數最敏感的欄位，其他欄位捨棄即可，避免過度清理干擾原始結構；

Answer

B. 保留所有相似欄位，交由高階模型(如Gradient Boosting或Deep Learning)自動學習特徵關聯，無需手動處理；

Answer

C. 建立欄位命名標準，統一金額單位與格式，進行欄位正規化與語義合併，減少重複資訊影響特徵重要性估計；

Answer

D. 將重複欄位視為類別欄位，進行One-hot編碼（One-hot encoding）後輸入模型，以避免數值誤導模型學習過程

iPAS 考題解析

考試範圍定位

題目與選項

詳細解析

各選項逐一解析

延伸學習

進階題備考建議

同主題考題練習

iPAS AI 應用規劃師認證簡介

開始準備 iPAS 考試