红杉中国推出全新AI基准测试xbench

aixiPa

随着基础模型的快速发展和AI智能体进入规模化应用阶段，被广泛使用的基准测试却面临日益尖锐的问题：想要真实地反映AI的客观能力正变得越来越困难。因此，构建更加科学、长效和如实反映AI客观能力的评测体系，正在成为指引AI技术突破与产品迭代的重要需求。为此，红杉中国推出全新的AI基准测试xbench并发布论文。这是首个由投资机构发起，联合国内外十余家高校和研究机构的数十位博士研究生，采用双轨评估体系和长青评估机制的AI基准测试。xbench将在评估和推动AI系统能力提升上限与技术边界的同时，重点量化AI系统在真实场景的效用价值，并长期捕捉智能体产品的关键突破。

红杉中国