某團隊在開發風險評估模型時,使用主成份分析(Principal Component Analysis, PCA)進行降維。輸入資料包含三個數值欄位:「交易金額(單位:新台幣)」、「交易次數(次/月)」與「年齡(歲)」,其數值量級分別約為10⁶、10¹與10²。分析人員直接將原始數據帶入PCA,結果第一主成分(PC1)幾乎完全由「交易金額」主導。下列哪一項作法或判斷最合理?
iPAS 考題解析
某團隊在開發風險評估模型時,使用主成份分析(Principal Component Analysis, PCA)進行降維。輸入資料包含三個數值欄位:「交易金額(單位:新台幣)」、「交易次數(次/月)」與「年齡(歲)」,其數值量級分別約為10⁶、10¹與10²。分析人員直接將原始數據帶入PCA,結果第一主成分(PC1)幾乎完全由「交易金額」主導。下列哪一項作法或判斷最合理?
- A. 這是正常現象,金額本身變異較大,應主導主要成分
- B. 若改用特徵選擇法,可自動解決變數量級問題
- C. 可刪除「交易金額」欄位以平衡各主成分的影響
- D. 在進行PCA前應先進行標準化(Standardization),以避免因數值尺度差異造成特徵偏誤 ✓ 正確答案
詳細解析
PCA基於變異數計算,若不先標準化,數值量級大的變數(交易金額)會主導主成分,而非因其真實重要性。標準化後各變數具相同尺度,PCA才能客觀反映資料的真實變異結構。
出題年份:114 難度:★★☆