某醫院研究團隊蒐集了大量病患的「收縮壓」數據,經檢驗後顯示此數值大致呈現常態分布。在進行後續模型分析前,研究人員希望妥善處理可能存在的極端血壓數值。下列哪一種做法最為合適?

iPAS 考題解析

某醫院研究團隊蒐集了大量病患的「收縮壓」數據,經檢驗後顯示此數值大致呈現常態分布。在進行後續模型分析前,研究人員希望妥善處理可能存在的極端血壓數值。下列哪一種做法最為合適?

  • A. 將所有極端偏高或偏低的血壓數據直接刪除,以保留最具代表性的病患樣本;
  • B. 使用對數轉換(Log Transformation),將數據壓縮至更接近常態,以降低極端值的影響;
  • C. 透過Z分數(Z-score)或標準差範圍檢測異常值,並依研究需求決定是否調整或移除; ✓ 正確答案
  • D. 將檢測到的離群值以Label Encoding編碼,轉換為序號標籤以避免影響原始分布

詳細解析

常態分布(Normal Distribution)資料中,用 Z 分數(Z-score)或標準差範圍檢測異常值(Outlier)是最標準的做法,再依研究需求決定處理方式。

難度:★★☆