6 月 19 日,上海人工智能实验室发布首个 AI 高考全卷评测结果,月初开源的阿里通义千问大模型 Qwen2-72B 排名之一,在语数外三科 420 分的满分中获得 303 分。
上海人工智能实验室分析认为,高考覆盖各类学科及题型,这一综合性测试,目前普遍被研究者用于考察大模型的智能水平。2024 年全国高考甫一结束,上海人工智能实验室的司南评测体系 OpenCompass 就选取 6 个开源模型及 GPT-4o 进行高考 " 语数外 " 全卷能力测试。因无法确定闭源模型的更新时间,为公平起见,此次评测没有纳入商用闭源模型,仅引入 GPT-4o 作为评测参考。
本次评测采用全国新课标 I 卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 " 闭卷 " 性。全卷试题既包含选择、填空等 " 答案唯一性 " 题目,也包括简答、阅读理解及作文等主观题,在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。
评测结果显示,Qwen2-72B 以语数外 303 分的总成绩,成为本次大模型高考 " 状元 ",领先于 GPT-4o(296 分)及书生 · 浦语 2.0 文曲星(InternLM2-20B-WQX,295.5)。本次评测的另外三位大模型选手分别是法国 AI 创业公司 Mistral 的 Mixtral 8x22B 模型、零一万物公司的 Yi-1.5-34B 模型、智谱 AI 的 GLM-4-9B、阿里巴巴的通义千问 Qwen2 系列的混合专家(MoE)模型 Qwen2-57B-A14B,通义千问的 MoE 模型同样表现不俗,总分(254 分)位列第四名。
上海人工智能实验室指出,大部分模型考生的语文、英语科目表现良好,但在数学方面还有很大的提升空间。InternLM2-20B-WQX 取得了数学单科的更高分,但仍未达到及格水平,表明大模型的数学能力存在较大提升空间。据悉,本次 " 大模型高考 " 答案生成脚本、各模型答卷、教师评分细节全部公开。后续,研究团队将在评测中引入多模态大模型,以考察模型应对更多题型的能力,并陆续发布覆盖不同学科和地区的完整高考评测。
发表评论