某 NLP 模型在英文資料上的 Recall 為 0.92,遷移到繁體中文後 Recall 降至 0.61,原因最可能是?

iPAS 考題解析

某 NLP 模型在英文資料上的 Recall 為 0.92,遷移到繁體中文後 Recall 降至 0.61,原因最可能是?

  • A. 中文的字符集過大,模型無法正確 tokenize
  • B. 模型在英文訓練時學到的句法結構與中文完全不相容
  • C. 跨語言特徵分佈差異(Domain Shift)導致模型無法泛化到目標語言 ✓ 正確答案
  • D. 繁體中文資料的 TF-IDF 值計算方式不同

詳細解析

跨語言遷移時,源語言(英文)和目標語言(繁體中文)的特徵分佈存在顯著差異(Domain Shift),包括語法結構、詞彙語義、書寫方向等,導致在英文上訓練的模型無法直接泛化到中文,需要進行跨語言適應(如使用多語言預訓練模型 mBERT 或進行領域適應訓練)。

出題年份:114 難度:★★☆