下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?
iPAS 考題解析
下列哪一個資料集專門設計用於測試大型語言模型在多領域、多任務語言理解中,涵蓋人文、科學與社會科學等領域,而非專門用於數學推理或中文專業知識?
- A. MMLU; ✓ 正確答案
- B. GSM8K;
- C. MATH;
- D. C-Eval
詳細解析
MMLU 是多領域多任務語言理解測試,涵蓋人文、科學等;GSM8K 和 MATH 專注數學,C-Eval 專注中文。
難度:★★☆