大模型做高考卷，猜猜它得了多少分？

愣头青 2024-06-20 09:12:14 扯犊子 26 阅读

6 月 19 日，上海人工智能实验室发布首个 AI 高考全卷评测结果，月初开源的阿里通义千问大模型 Qwen2-72B 排名之一，在语数外三科 420 分的满分中获得 303 分。

大模型做高考卷，猜猜它得了多少分？

上海人工智能实验室分析认为，高考覆盖各类学科及题型，这一综合性测试，目前普遍被研究者用于考察大模型的智能水平。2024 年全国高考甫一结束，上海人工智能实验室的司南评测体系 OpenCompass 就选取 6 个开源模型及 GPT-4o 进行高考 " 语数外 " 全卷能力测试。因无法确定闭源模型的更新时间，为公平起见，此次评测没有纳入商用闭源模型，仅引入 GPT-4o 作为评测参考。

本次评测采用全国新课标 I 卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 " 闭卷 " 性。全卷试题既包含选择、填空等 " 答案唯一性 " 题目，也包括简答、阅读理解及作文等主观题，在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

评测结果显示，Qwen2-72B 以语数外 303 分的总成绩，成为本次大模型高考 " 状元 "，领先于 GPT-4o（296 分）及书生 · 浦语 2.0 文曲星（InternLM2-20B-WQX，295.5）。本次评测的另外三位大模型选手分别是法国 AI 创业公司 Mistral 的 Mixtral 8x22B 模型、零一万物公司的 Yi-1.5-34B 模型、智谱 AI 的 GLM-4-9B、阿里巴巴的通义千问 Qwen2 系列的混合专家（MoE）模型 Qwen2-57B-A14B，通义千问的 MoE 模型同样表现不俗，总分（254 分）位列第四名。

上海人工智能实验室指出，大部分模型考生的语文、英语科目表现良好，但在数学方面还有很大的提升空间。InternLM2-20B-WQX 取得了数学单科的更高分，但仍未达到及格水平，表明大模型的数学能力存在较大提升空间。据悉，本次 " 大模型高考 " 答案生成脚本、各模型答卷、教师评分细节全部公开。后续，研究团队将在评测中引入多模态大模型，以考察模型应对更多题型的能力，并陆续发布覆盖不同学科和地区的完整高考评测。

发表评论

26人参与，3条评论

黎涛
2024-11-28 02:16:39回复
作为一位企业老板，我对于上海人工智能实验室发布的AI高考全卷评测结果感到非常震撼，看到Qwen2-7B模型在语数外三科中获得如此高的分数排名首位让我倍感骄傲和欣慰！这次测评不仅展现了开源大模型的强大能力也体现了我国在人工智能技术方面的进步和发展潜力巨大未来已来值得我们期待更多的创新和突破相信随着技术的不断进步我们将会迎来更加美好的未来同时我也看到了在数学方面还有很大的提升空间希望研究团队能够继续努力推动技术进步为行业发展注入更多活力同时也为我们培养下一代人才提供更好的支持和帮助让科技的力量更好地服务于社会造福于人类！！

StarRain
2024-11-28 02:19:35回复
上海人工智能实验室的大模型高考评测展现了AI技术的惊人进步，首个开源大模型的优秀表现令人瞩目，期待未来更多创新性的研究和应用！

张娜
2024-12-20 07:20:10回复
作为一位持续关注人工智能发展的观察者，对于上海AI实验室发布的这一评测结果感到十分震撼，首个开源大模型Qwen2-7B在高考全卷中表现出色并拔得头筹确实令人钦佩！这次测试不仅凸显了我国在人工智能技术方面的进步与突破成果显著；同时反映出未来教育趋势的变革潜力巨大无比值得期待和关注期待更多类似研究推动科技进步与教育创新同步发展共同迈向更美好的未来。#为科技点赞#

大模型做高考卷，猜猜它得了多少分？

你可能感兴趣的

发表评论