若開發一個用於罕見疾病自動診斷的分類模型,目前資料集中確診樣本僅佔不到1%,且因為標記成本高,短期內無法取得更多資料。在此情況下,若希望提升模型對少數類的偵測能力,同時避免過擬合,下列哪一種策略最為合理?

iPAS 考題解析

若開發一個用於罕見疾病自動診斷的分類模型,目前資料集中確診樣本僅佔不到1%,且因為標記成本高,短期內無法取得更多資料。在此情況下,若希望提升模型對少數類的偵測能力,同時避免過擬合,下列哪一種策略最為合理?

  • A. 對少數類進行隨機過採樣(Random Oversampling)
  • B. 對多數類進行欠採樣(Random Undersampling)
  • C. 使用SMOTE(Synthetic Minority Over-sampling Technique)生成合成少數類樣本後再訓練分類模型 ✓ 正確答案
  • D. 僅使用現有資料調整模型決策閾值(Decision Threshold)以提升召回率

詳細解析

SMOTE透過插值生成合成少數類樣本而非單純複製,能有效增加少數類多樣性、提升模型泛化能力並降低過擬合風險,是處理嚴重類別不平衡的標準方法。

出題年份:114 難度:★★☆