来源|多知网
作者|王上
针对大模型的考试越来越丰富了!
近日,清华⼤学THUNLP实验室和北航、曲⼀线智能出版中⼼联合发布了OlympiadBench,这是⼀个Olympiad-level的双语、多模态的科学评测集,主要评测大模型在数学和物理方面的推理能力。
根据OlympiadBench研究团队的论文显示,这套评测集包含了8952条数学和物理问题,这些都来⾃于国际奥赛、中国奥赛、中国⾼考模拟题。
这套评测集的特点是:达到奥林匹克竞赛难度,多模态,主要评估⼤模型在数学、物理上的推理能⼒;且是双语的。这是第一个提供双语、多模态的科学基准。
曲一线是中国教辅头部企业,旗下“五三”教辅闻名全国。OlympiadBench评测集的推出意味着可以给大模型考“五三”了。
各大模型的成绩如何?
根据OlympiadBench研究团队的研究结果显示,OpenAI旗下的大模型GPT-4V在OlympiadBench上的平均得分为17.23%,仅在物理学方面得分为11.28%。
01
OlympiadBench出炉:给大模型考试加大难度
每一个大模型发布之前,都会公布一些评测数据。这是怎么得出来的?背后就是基准(Benchmarks)评测数据集(简称“评测集”)。
为了评估模型的性能,需要使用评测集来测试模型对未见过的数据的预测能力。因此,评测集不同于训练集,两者是独立的。
当前,有很多专门人员或者机构来构建测试数据集,可以说他们是针对大模型的“考试题”。
比较常用评测集有:
GSM8K,一个由8.5K高质量的语言多样化的小学数学问题组成的评测集,采用英文格式。
MMLU,该测评数据集为英文格式,涵盖 STEM、人文学科、社会科学等领域的 57 个学科。难度从初级到专业高级,既考验世界知识,又考验解决问题的能力。
C-Eval,是首个评估中文基础模型高级知识和推理能力的广泛基准,由清华大学THUNLP实验室联合上海交通大学推出,该评测集包括四个难度级别的多项选择题:初中、高中、大学和专业。
MMCU,这是甲骨易AI研究院推出的中文评测数据集,为中文格式,涵盖医学、法律、心理学和教育四大领域,主要是选择题,题目的数量达到1万+,主要评测理解能力。
随着大模型的发展,传统的数学、物理基准已经难以满足大模型的快速发展,需要更具难度的评测集来评估。
数学、物理难度的最高标准是什么?非奥林匹克竞赛莫属。因此,这个数据集命名为OlympiadBench。这是由清华⼤学和北航、曲⼀线智能出版中⼼联合发布的⼀个Olympiad-level的双语、多模态的科学评测集,来向⼤模型发起挑战。
OlympiadBench挑选了国内外奥林匹克竞赛和国内⾼考的的开放性回答题⽬。⽆论是难度还是题⽬形式,均和以往的基准不同,都对模型进⾏⾼阶推理提出更大的挑战性。
在学科方面,OlympiadBench选择了数学、物理。数学、物理这两个对⼈类科学极其重要的学科,其中物理的难度不亚于数学,却经常被忽略。
在形态上,OlympiadBench是多模态的。随着大模型的快速发展,传统的基准评测集⼀般是只有文本,不满⾜研究需求。尤其是物理和数学经常是很多图形、表格的题目,需要图片上传,OlympiadBench则正好包含了多模态信息。
在语言方面,是双语的。⽬前⽐较多的基准评测集⼤都是英⽂的格式,⽽中⽂环境下也缺少有难度的问题。所以OlympiadBench收集了中⽂环境下有难度的问题,为中⽂⼤模型、中⽂的研究提供资源。
且每条数据都包含了专家级别标注的解答过程、细分领域、题型等等,以及丰富的数据量。
OlympiadBench可以说为推理研究提供了一个资源库。
02
OlympiadBench的评测集是怎样构建的?
对于大模型研究来说,数据集的作用非常大。不过,构建测试数据集这件事本身难度很大,比如要构建哪些能力?测评哪些方面?
其中,推理能力是重要的评测标准。
OlympiadBench团队的出发点是,通过OlympiadBench建⽴⼀个代表⼈类智⼒成就顶峰的基准,从⽽⿎励研究⼈员推动⼤模型的数学和物理推理能⼒的边界。
为了实现这⼀愿景,OlympiadBench团队收集了国内外奥林匹克竞赛题⽬以及国内的⾼考题⽬:
对于奥林匹克竞赛题目,OlympiadBench研究团队从官⽅下载PDF,并使⽤Mathpix转化为markdown。
研究团队对处理的结果进⾏细致的校对、修复。然后进⾏统⼀去重。
最后,按照细分领域、题型、答案格式和子字段等关键信息进⾏属性标注,从⽽获得⼀个含有多种详细分类且⼲净、准确和详细的数据集。
(OlympiadBench评测集构建流程)
对于国内高考题目,OlympiadBench研究团队选择曲一线的“五三”教辅,这集合了从2005年到现在历年的高考模拟题和真题。
(详细的数据集)
实际上,曲一线很早就开始了数字化,曲⼀线智能出版中⼼就是专门做数字化内容的部门。此前,“五三”此前也进入了小猿智能本、有道等智能硬件。
可以说,“五三”教辅是一个现成的中文高考评测集,有详细的题目和解题过程,且均是标注好的。
曲一线团队告诉多知网:“‘五三’题库非常精准,题目和答案都经历了三审三校的过程,差错率远低于国内对出版要求的万分之一。”
OlympiadBench采用“五三”教辅,对于曲一线而言,一方面象征着其数字化内容得到了更为深入的应用,另一方面也强化了其品牌势能。
03
结果来了:GPT-4V平均准确率为17.23%
大模型在OlympiadBench评测集的表现如何?
在研究上,为了更准确全⾯的评估,OlympiadBench研究团队举例针对以上五种答案题型的题⽬,构建了⼀个⾃动评分的路径。
OlympiadBench测试了5家大模型(当时Anthropic推出Claude 3大模型还未面市,因此不在其中),包括微软、零一万物、谷歌、通义千问和OpenAI旗下的大模型。
从测试结果可以看到,OlympiadBench⽐现在基准评测集更具有挑战性,OpenAI旗下GPT-4V的平均准确率仅为17.23%,通义千问旗下Qwen-VL-Max平均准确率为10.31%,谷歌旗下Gemini-Pro-Vision平均准确率为4.38%。
(实验结果)
从理论上来看,大模型通过各项基准测试的数据越高,在一定程度上意味着越接近AGI,即能达到人类水平。从OlympiadBench测试结果来看,各家大模型离AGI还有一定的差距。
OlympiadBench研究团队还对大模型测试结果分析了错误的原因。
(错误类型)
论文提到,对于证明题的分析,GPT-4V在Math-Zh_COMP的81道题中只答对了6道,都是相对简单经典的结论或者只涉及简单的计算推导,在Math-En_COMP中基本⽆法在标记限制内完成证明, 表明现有模型仍⽆法有效解决冗⻓的推理和证明。
同时GPT-4V暴露了⼏个问题,包括:⽆法充分利⽤图像信息;倾向于在简化和转换代数表达式时犯错误;提出简单、基本的不正确结论等。
目前,OlympiadBench已经全部公开,相信不久的将来,会有更多大模型用OlympiadBench评测集进行测试。
研究团队表示,希望OlympiadBench可以为推动AGI的发展提供帮助,另外科学的评测集也不仅限于数学、物理,未来也将继续扩展基准,来提供更全⾯的评估。
END
本文作者:王上