随着基础模型的快速发展和AI智能体进入规模化应用阶段,被广泛使用的基准测试却面临日益尖锐的问题:想要真实地反映AI的客观能力正变得越来越困难。因此,构建更加科学、长效和如实反映AI客观能力的评测体系,正在成为指引AI技术突破与产品迭代的重要需求。为此,红杉中国推出全新的AI基准测试xbench并发布论文。这是首个由投资机构发起,联合国内外十余家高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制的AI基准测试。xbench将在评估和推动AI系统能力提升上限与技术边界的同时,重点量化AI系统在真实场景的效用价值,并长期捕捉智能体产品的关键突破。
红杉中国