鞭牛士 6月19日消息,今日,上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。
据悉,司南评测体系首次采用高考全卷测试的形式,选取新课标I卷“语数外”三科题目作为测试集,共选取了7个大模型进行测试。
语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名之一,为303分,OpenAl的GPT-4o排名第二,得分296分,上海人工智能实验室的书生浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。
测试结果显示,这几个大模型的语文、英语考试水平普遍不错,但数学都不及格,更高分也只有75分。
司南评测体系分析称,总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。语文平均得分率为67%,英语达到了81%,而数学则是所有大模型的短板,平均得分率仅为36%。
发表评论
2024-08-03 14:04:51回复
2024-08-03 14:08:06回复
2024-08-03 14:11:19回复
2024-10-08 08:11:34回复
看到阿里通义千问在此次测试中脱颖而出,表现卓越,当然也要认识到在数学方面还有提升空间需要继续努力攻克难关!期待未来各大模型的全面发展与提升。#AI进步#
2024-10-08 08:14:51回复