若在高維度(>500維)的資料上應用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?

iPAS 考題解析

若在高維度(>500維)的資料上應用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?

  • A. 高維下距離變化趨同,導致ε(Epsilon)閾值選擇失效 ✓ 正確答案
  • B. 使用錯誤的距離函數(Distance Function)
  • C. MinPts參數設得太小
  • D. 資料過度標準化導致特徵消失

詳細解析

維度詛咒(Curse of Dimensionality)下,高維空間中所有點之間的距離趨於相同(距離趨同現象),使得DBSCAN的鄰域半徑ε難以設定:若ε太小,每個點的鄰域內無其他點,全被判為雜訊。

出題年份:114 難度:★★☆