以Phi3模型报告中出现的学术基准测试为例,介绍一下常见的大模型学生基础测试集。

具体介绍使用OpenCompass平台的数据集介绍:

  • MMLU (Massive Multitask Language Understanding) 是一个新的基准测试,旨在通过在零次学习和少次学习的环境中评估模型来测量预训练期间获得的知识。这使得基准测试更具挑战性,且更接近我们评估人类的方式。该基准测试涵盖了STEM、人文学科、社会科学等57个主题。其难度范围从小学级别到专业级别,旨在测试世界知识和解决问题的能力。测试主题范围从传统领域,如数学和历史,到更专业的领域,如法律和伦理学。题目的精细度和广度使该基准测试成为识别模型盲点的理想选择
  • HellaSwag 是一个用于评估常识性自然语言推理的数据集,HellaSwag的问题对于最先进的模型来说是特别困难的,尽管它的问题对于人类来说非常轻松就能回答的(> 95% 的准确率)。它由7万多道多项选择题组成,每道题都有一个场景和四种可能的答案,需要选择最合理的答案。这些问题来自两个领域:activitynet和wikihow,分别涉及视频和文本场景。这些问题的正确答案是下一个事件的真实句子,而错误答案是通过对抗技术生成的并经过人类验证,这些答案可以欺骗机器但不能欺骗人类
  • GSM8K 是一个包含 8,500 个高质量、语言多样化的小学数学单词问题的数据集,由人类问题编写者创建。该数据集分为 7,500 个训练问题和 1,000 个测试问题。这些问题的解题步骤在 2 到 8 步之间,解题过程主要涉及使用基本算术运算(+ – × ÷)进行一连串的基本计算,从而得出最终答案。一个聪明的初中生应该能够解决每一个问题。它可用于多步数学推理
  • MedQA
  • AGIEval是一个以人为中心的基准测试,专门设计用于评估基础模型在涉及人类认知和问题解决的任务中的一般能力。该基准测试源自20个官方、公开和高标准的入学和资格考试,例如普通大学入学考试(例如中国高考和美国SAT)、法学院入学考试、数学竞赛、律师资格考试以及国家公务员考试
  • TriviaqQA是一个阅读理解数据集,包含超过65万个问题-答案-证据三元组。其包括95K个问答对,由冷知识爱好者和独立收集的事实性文档撰写,平均每个问题6个,为回答问题提供高质量的远程监督。
  • Arc-C:AI2的推理挑战(ARC)数据集是一个多项选择问题回答数据集,包含了从三年级到九年级的科学考试中提取的问题。该数据集分为两个部分:简单和挑战,其中后者包含了需要推理能力的更难的问题。大多数问题有4个答案选项,仅有不到1%的问题有3个或5个答案选
  • Arc-E:AI2的推理挑战(ARC)数据集是一个多项选择问题回答数据集,包含了从三年级到九年级的科学考试中提取的问题。该数据集分为两个部分:简单和挑战,其中后者包含了需要推理能力的更难的问题。大多数问题有4个答案选项,仅有不到1%的问题有3个或5个答案选项
  • PIQA是一个物理交互问答任务,要求根据给定的场景和两个可能的解决方案,选择最合理的方案。这个任务是为了测试模型在物理常识方面的知识。这个数据集包含了16000个训练样本,800个开发样本和2000个测试样本,所有的文本都是英文文本
  • SociQA: SIQA 是一个社会交互问答任务,要求根据给定的场景和三个可能的后续行为,选择最合理的行为。这个任务是为了测试模型在社会常识方面的知识。这个数据集包含了 38963 个训练样本,1951 个开发样本和 1960 个测试样本,所有的文本都是英文文本。
  • BIG Bench-Hard(BBH)是BIG Bench的一个子集,它是一个用于语言模型的多样化评估套件。BBH专注于BIG Bench的23项具有挑战性的任务,这些任务被发现超出了当前语言模型的能力。
  • WinoGrande
  • OpenBookQA包含需要多步推理、运用常识知识、深入理解文本等能力的问题,是一种新型的问答数据集,其模式借鉴了开放式书本考试,用于评估人类对某一主题理解的程度
  • BoolQ是一个包含15942个示例的是/否问题的问答数据集。这些问题是自然生成的——即在无prompt和无约束的环境中产生的。每个例子都是一个三元组(问题、段落、答案),页面标题是可选的附加上下文。
  • CommonsenseQA是一个选择题数据集,它需要不同类型的常识知识来预测正确答案。它包含12,102个问题,有一个正确答案和四个干扰答案。
  • TruthfulQA
  • HumanEval:这是 “Evaluating Large Language Models Trained on Code” 论文中描述的 HumanEval 问题解决数据集的评估工具包。它用于测量从文档脚本合成程序的功能正确性。它由 164 个原始编程问题组成,评估语言理解能力、算法和简单数学,其中一些问题与简单的软件面试题类似
  • MBPP:该基准测试由大约1000个入门级程序员可以解决的众包Python编程问题组成,涵盖编程基础知识、标准库功能等。每个问题都由任务描述、代码解决方案和3个自动化测试用例组成。
  • GPQA
  • MTBench
  • CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。CMMLU涵盖了从基础学科到高级专业水平的67个主题。它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。
  • C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
  • MATH 是一个包含 12,500 个具有挑战性的竞赛数学问题的新数据集。 MATH 中的每个问题都有完整的分步解决方案。
  • LongBench 是一个多任务、中英双语、针对大语言模型长文本理解能力的评测基准。
  • L-Eval 是一个全面的长上下文语言模型(LCLMs)评估套件,包括 20 个子任务、508 个长文档和超过 2,000 个人工标记的查询-响应对。它涵盖了多种问答风格、领域和输入长度(3,000 至 200,000 个 token)。
  • C3:一个自由形式的多项选择中文机器阅读理解数据集(C3),包含13369篇文献(对话或更正式的混合体裁文本)及其相关的19577道自由选择题,这些问题都是从汉语作为第二语言的考试中收集到的
  • DROP 是一个测试段落综合理解能力的 QA 数据集。在这个众包、对抗性创建的 96K 问题解答基准中,系统必须解析问题中的多个引用,将它们映射到段落中,并对它们执行离散操作(如加法、计数或排序)。
  • T-Eval 评估了 LLM 的工具使用能力,并将其分解为指令遵循、规划、推理、检索、理解和审查等子能力