鞭牛士 6月19日消息,今日,上海人工智能实验室旗下司南评测体系OpenCompass发布了首个大模型高考全卷评测结果。

​首个Al高考全卷评测结果发布:数学全不及格

据悉,司南评测体系首次采用高考全卷测试的形式,选取新课标I卷“语数外”三科题目作为测试集,共选取了7个大模型进行测试。

语数外三科加起来的满分为420分,此次高考测试结果显示,阿里通义千问2-72B排名之一,为303分,OpenAl的GPT-4o排名第二,得分296分,上海人工智能实验室的书生浦语2.0排名第三,三个大模型的得分率均超过70%。来自法国大模型初创公司的Mistral排名末尾。

测试结果显示,这几个大模型的语文、英语考试水平普遍不错,但数学都不及格,更高分也只有75分。

司南评测体系分析称,总分前三名Qwen2-72B、GPT-4o、InternLM2-20B-WQX对应得分率分别为72.1%、70.5%和70.4%。语文平均得分率为67%,英语达到了81%,而数学则是所有大模型的短板,平均得分率仅为36%。