若評估一個新開發的腫瘤分類模型,其資料集中有80%的樣本來自良性病例。若直接使用5-fold交叉驗證(Cross-Validation)進行模型評估,可能導致模型效能評估出現偏差,為避免此問題,下列哪一種作法最合適?
iPAS 考題解析
若評估一個新開發的腫瘤分類模型,其資料集中有80%的樣本來自良性病例。若直接使用5-fold交叉驗證(Cross-Validation)進行模型評估,可能導致模型效能評估出現偏差,為避免此問題,下列哪一種作法最合適?
- A. 降低K值以減少交叉驗證次數
- B. 改為使用拔靴法(Bootstrap)
- C. 調整測試集使良性樣本比例更高,以模擬真實分佈
- D. 使用分層交叉驗證(Stratified K-Fold Cross-Validation),以確保每折類別比例一致 ✓ 正確答案
詳細解析
資料類別不平衡(80%良性)時,普通K-fold的隨機分割可能使某些折的惡性樣本極少,導致評估不穩定。分層交叉驗證確保每折中各類別比例與整體資料集相同,評估更可靠。
出題年份:114 難度:★★☆