《BMJ 2024 圣诞特刊》：人工智能还是人工智障？

aixiPa

近日，在一项有趣的研究中。科研人员突发奇想地给 3 款（5 个版本）公开可用的「聊天机器人」看了个病，分别测试了它们的认知障碍程度。

蒙特利尔认知评估量表（MoCA）已被广泛用于轻度认知障碍、阿尔茨海默症和其他一些痴呆疾病的病情评估，包括了短期记忆、视觉空间能力、执行功能、注意力与工作记忆、语言、抽象推理和定位共 7 个部分的评估。在测试过程中，MoCA 除了包含大量的医患一对一对话，还设计了很多强互动性质的测试项目。

本次被测试的大语言模型，包括 ChatGPT-4o、ChatGPT-4、Claude 3.5、Gemini 版本 1/1.5 共五种被广泛使用的大语言模型，结果发现，ChatGPT-4o 的 MoCA 评分最高（26 分【及格线】），它也是唯一一个被诊断为「认知正常」的。

其中，ChatGPT-4 和 Claude 3.5 都拿到了 25 分，Gemini 1.5 拿到了 22 分，而 Gemini 1 的分数仅有 16 分。

参考文献：Soroush A, Glicksberg BS, Zimlichman E, et al. Large language models are poor medical coders — benchmarking of medical code querying. NEJM AI. 2024;1(5):AIdbp2300040.