若在高維度(>500維)的資料上應用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?
iPAS 考題解析
若在高維度(>500維)的資料上應用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)演算法,卻發現所有資料點皆被判定為雜訊(Noise),下列何者為最有可能的原因?
- A. 高維下距離變化趨同,導致ε(Epsilon)閾值選擇失效 ✓ 正確答案
- B. 使用錯誤的距離函數(Distance Function)
- C. MinPts參數設得太小
- D. 資料過度標準化導致特徵消失
詳細解析
維度詛咒(Curse of Dimensionality)下,高維空間中所有點之間的距離趨於相同(距離趨同現象),使得DBSCAN的鄰域半徑ε難以設定:若ε太小,每個點的鄰域內無其他點,全被判為雜訊。
出題年份:114 難度:★★☆