7大模型高考评测成绩出炉!第一名是它
据上海人工智能实验室最新发布的数据显示,其旗下的司南评测体系OpenCompass近日对7个大模型进行了“语数外”全卷能力测试。这是OpenCompass首次发布大模型的高考评测结果。
据了解,此次测试的满分为420分。测试结果显示,阿里通义千问2-72B以303分的成绩名列榜首,紧随其后的是OpenAI的GPT-4o,得分为296分。而上海人工智能实验室的书生浦语2.0则以第三名的成绩出现在榜单上。这三个大模型在本次测试中的得分率均超过70%。
然而值得注意的是,虽然大模型在语文和英语考试中表现出色,但在数学考试方面却普遍不及格。其中,最高得分也只有75分。
这一结果引发了业界对于大模型是否具备扎实的基础数学知识的质疑。一些专家认为,虽然大模型在自然语言处理方面具有很高的水平,但它们在基础数学运算等领域的应用还需要进一步的研究和发展。
另外,这次测试也暴露出了一些大模型存在的不足之处。例如,在解答某些问题时,大模型的推理能力和逻辑思维能力还需要进一步提升。
总之,这次测试为研究者们提供了一个重要的参考依据。未来,随着人工智能技术的不断发展和深入研究,大模型在多个领域的应用将会变得更加广泛,并带来更多的便利和创新。