今日国内大模型评测机构 SuperCLUE 发布了《中文大模型基准测评 2024 年度 4 月报告》,报告选取国内外具有代表性的 32 个大模型 4 月份的版本,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。报告显示,百川智能的 Baichuan 3 在国内大模型中排名第一,智谱 GLM-4、通义千问 2.1、文心一言 4.0、Moonshot (Kimi) 等大模型位列其后。从全球范围来看,国外同行的 GPT-4、Claude3 得分更胜一筹。
测试结果显示,Baichuan3 的文科、理科能力均衡。在知识百科能力上 Baichuan 3 以 82 分的成绩超越了 GPT-4-Turbo,在所有 32 个参与评测的国内外大模型中排名第一。而在代表了大模型智力的“逻辑推理”能力上以 68.60 的成绩超越 Claude3-Opus,也力压一众国内大模型拔得头筹。此外,在计算、代码、工具使用能力上 Baichuan 3 表现同样不俗,均排名国内前三。