下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?

iPAS 考題解析

下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?

  • A. MMLU ✓ 正確答案
  • B. GSM8K
  • C. MATH
  • D. C-Eval

詳細解析

MMLU(Massive Multitask Language Understanding)是專門設計用於測試 LLM 在多領域、多任務語言理解能力的基準測試,涵蓋人文、科學、社會科學等 57 個學科。GSM8K 和 MATH 專注於數學,C-Eval 專注於中文。

出題年份:114 難度:★★☆