下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?

iPAS 考題解析

下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?

  • A. MMLU; ✓ 正確答案
  • B. GSM8K;
  • C. MATH;
  • D. C-Eval

詳細解析

MMLU 是多領域多任務語言理解測試,涵蓋人文、科學等;GSM8K 和 MATH 專注數學,C-Eval 專注中文。

難度:★★☆