某醫院研究團隊蒐集了大量病患的「收縮壓」數據,經檢驗後顯示此數值大致呈現常態分布。在進行後續模型分析前,研究人員希望妥善處理可能存在的極端血壓數值。下列哪一種做法最為合適?

iPAS 考題解析

某醫院研究團隊蒐集了大量病患的「收縮壓」數據,經檢驗後顯示此數值大致呈現常態分布。在進行後續模型分析前,研究人員希望妥善處理可能存在的極端血壓數值。下列哪一種做法最為合適?

  • A. 將所有極端偏高或偏低的血壓數據直接刪除,以保留最具代表性的病患樣本;
  • B. 使用對數轉換(Log Transformation),將數據壓縮至更接近常態,以降低極端值的影響;
  • C. 透過 Z 分數(Z-score)或標準差範圍檢測異常值,並依研究需求決定是否調整或移除; ✓ 正確答案
  • D. 將檢測到的離群值以 Label Encoding 編碼,轉換為序號標籤以避免影響原始分布

詳細解析

對於已呈常態分布的資料,使用 Z 分數或標準差範圍(如 3 個標準差)來檢測異常值是最科學的方法。檢測出異常值後,應根據研究需求和領域知識決定是調整還是移除,而非一刀切地刪除。

出題年份:114 難度:★★☆