在進行資料分析時,會遇到類別型(Categorical)與數值型(Numerical)資料格式。關於這兩種資料格式的處理,下列敘述何者不正確?

iPAS 考題解析

在進行資料分析時,會遇到類別型(Categorical)與數值型(Numerical)資料格式。關於這兩種資料格式的處理,下列敘述何者不正確?

  • A. One-Hot編碼(One-Hot Encoding)會將類別變數轉換為多維二元向量,適用於無序(Nominal)類別資料,但在高基數(High Cardinality)特徵下可能造成維度爆炸問題
  • B. 標籤編碼(Label Encoding)會以整數表示不同類別,若應用於無序(Nominal)資料,可能導致模型誤將編碼值解讀為具數值大小關係的特徵
  • C. 標準化(Standardization)透過將資料平移與縮放,使其平均值為0、標準差為1,可在多數距離演算法中改善收斂速度,並同時將數值範圍壓縮至0至1之間 ✓ 正確答案
  • D. 對連續變數進行分箱(Binning)可提升模型可解釋性,但若分段方式未依據資料分佈特性設計,可能導致資訊損失或邊界誤差

詳細解析

標準化(Standardization)使資料平均值為0、標準差為1,但不保證數值範圍在0到1之間——將數值壓縮至0到1之間是Min-Max正規化(Normalization)的特性。此選項混淆了兩種方法,故不正確。

出題年份:114 難度:★★☆