在自然語言處理任務中，為了減少訓練語料中偏見對模型的影響，下列哪種資料處理策略屬於常見的「資料去偏（Data Debiasing）」做法？

Question

Accepted Answer

C. 調整或擴充訓練語料，使不同群體或類型資料的比例更加平衡，避免模型過度偏向出現頻率高的類別；。資料去偏的核心做法之一是調整訓練資料的組成，確保不同群體或類型的資料比例更平衡。這樣可以防止模型在訓練過程中過度學習到某些群體的特徵，從而降低偏見。

Answer

A. 讓模型在訓練時隨機替換輸出，以抵消資料中存在的系統性偏差；

Answer

B. 增加模型的參數量，依賴更大的模型自動消除原始資料中的偏見；

Answer

C. 調整或擴充訓練語料，使不同群體或類型資料的比例更加平衡，避免模型過度偏向出現頻率高的類別；

Answer

D. 對訓練資料施加額外正則化或噪音，使模型在學習過程中對偏見敏感度降低

iPAS 考題解析