2月4日消息,今日,SuperCLUE发布了2025年度中文大模型基准测评报告。
23个国内外模型参与竞争,涵盖数学推理、科学推理、代码生成等六大核心维度。
从结果来看,海外闭源模型仍处于头部位置,Anthropic旗下的Claude-Opus-4.5-Reasoning以68.25分位列第一。
谷歌的Gemini-3-Pro-Preview和OpenAI的GPT-5.2(high)依次获得65.59分、64.32分,紧随榜首之后,共同占据了前三名的位置。
不过,国产大模型正加快从跟跑向并跑转变的步伐。国内开源领域的顶尖模型Kimi-K2.5-Thinking与闭源领域的顶尖模型Qwen3-Max-Thinking,分别以61.50分和60.61分的成绩跻身全球第四和第六名。
在一些细分领域里,国产模型的表现颇为出色。例如,Kimi-K2.5-Thinking在代码生成任务中拿下53.33分的成绩,位居榜首;Qwen3-Max-Thinking则在数学推理任务中取得80.87分,和Gemini-3-Pro-Preview分数相同,共同位列全球第一。
从整体格局来看,海内外开闭源模型存在明显差异。闭源领域呈现出海外领先、国产追赶的态势,而开源领域则是国产占据主导地位,海外相对式微,国内开源模型的前五名均显著领先于海外开源模型。