下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?
iPAS 考題解析
下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?
- A. MMLU ✓ 正確答案
- B. GSM8K
- C. MATH
- D. C-Eval
詳細解析
MMLU(Massive Multitask Language Understanding)是專門設計用於測試 LLM 在多領域、多任務語言理解能力的基準測試,涵蓋人文、科學、社會科學等 57 個學科。GSM8K 和 MATH 專注於數學,C-Eval 專注於中文。
出題年份:114 難度:★★☆