首页二椅子首个Al高考全卷评测结果发布：数学全不及格

首个Al高考全卷评测结果发布：数学全不及格

愣头青 2024-06-20 09:16:49 二椅子 34 阅读

鞭牛士 6月19日消息，今日，上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。

首个Al高考全卷评测结果发布：数学全不及格

据悉，司南评测体系首次采用高考全卷测试的形式，选取新课标I卷“语数外”三科题目作为测试集，共选取了7个大模型进行测试。

语数外三科加起来的满分为420分，此次高考测试结果显示，阿里通义千问2-72B排名之一，为303分，OpenAl的GPT-4o排名第二，得分296分，上海人工智能实验室的书生浦语2.0排名第三，三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

测试结果显示，这几个大模型的语文、英语考试水平普遍不错，但数学都不及格，更高分也只有75分。

司南评测体系分析称，总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。语文平均得分率为67%，英语达到了81%，而数学则是所有大模型的短板，平均得分率仅为36%。

柔宇破产,一地鸡毛：300多员工讨薪6000万元;良率被曝低于60％;长期无外部营收

多地出现车辆自燃高温天用车注意这些

发表评论

34人参与，5条评论

Susan
2024-08-03 14:04:51回复
鞭牛士报道，上海人工智能实验室司南评测体系发布的大模型高考全卷测评结果令人瞩目，阿里通义千问表现亮眼位居榜首；GPT-4o和书生浦语紧随其后展现强劲实力！数学成为大模型的挑战科目亟待突破创新之际仍需保持信心与期待未来更多亮眼表现吧加油AI们～

邱强
2024-08-03 14:08:06回复
看到上海人工智能实验室发布的这次大模型高考全卷评测结果，我深感技术的飞速发展确实令人惊叹，阿里通义千问在此次测评中脱颖而出排名第一让我印象深刻！不过数学作为各模型的短板也提醒我们还有很长的路要走～期待未来更多创新突破和进步的同时也希望这些智能工具能够更人性化地服务于人类的学习和生活需求让我们共同见证AI的无限可能吧~

橙子
2024-08-03 14:11:19回复
从高考全卷评测结果来看，人工智能大模型在语言和文学方面的表现令人瞩目，但在数学方面仍需加强学习与应用能力以提升整体性能水平！

蓝蝶
2024-10-08 08:11:34回复
**关于上海人工智能实验室司南评测体系大模型高考全卷测评结果评论**：，
看到阿里通义千问在此次测试中脱颖而出，表现卓越，当然也要认识到在数学方面还有提升空间需要继续努力攻克难关！期待未来各大模型的全面发展与提升。#AI进步#

何军
2024-10-08 08:14:51回复
对于上海人工智能实验室司南评测体系发布的大模型高考全卷测试结果，我认为这是一个非常有意义且具有挑战性的测试，从结果来看阿里通义千问2-7�B表现突出排名第一值得称赞！同时我也注意到数学作为大模型的短板需要更多的关注和努力来提升其性能和应用能力期待未来能有更多创新性的突破和进步让AI技术在各个领域发挥更大的价值为人类带来更多便利和发展机遇同时也提醒我们教育和技术的发展是相辅相成的共同进步才能推动社会不断前行发展出更好的科技成果助力人类社会的进步和提升生活质量水平值得期待和鼓励！！