GPT-5编程测试被曝"作弊"：自删23道题目美化成绩

aixiPa

有开发者发现，OpenAI在GPT-5编程能力测试中存在"猫腻"。官方声称使用SWE-bench Verified基准测试，但实际只用了477个问题，自行删除了原本500题中的23道。SWE-bench是评估AI模型自主编程能力的通用指标，而GPT-5使用的是"子集的子集"。如果被删除的23题按零分计算，GPT-5的实际得分将低于Claude Opus 4.1，目前两者仅有0.4%的微弱差距。

新浪科技