下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中，涵蓋人文、科學與社會科學等領域，而非專門用於數學推理或中文專業知識？

Question

Accepted Answer

A. MMLU。MMLU（Massive Multitask Language Understanding）是專門設計用於測試 LLM 在多領域、多任務語言理解能力的基準測試，涵蓋人文、科學、社會科學等 57 個學科。GSM8K 和 MATH 專注於數學，C-Eval 專注於中文。

Answer

A. MMLU

Answer

B. GSM8K

Answer

C. MATH

Answer

D. C-Eval

iPAS 考題解析