哈佛最新研究：AI看急诊，比两名医生还准

一项发表于 Science（《科学》）的新研究显示，在真实急诊病例测试中，OpenAI 的 o1 模型在部分诊断环节的表现，达到甚至略高于两名 internal medicine attending physicians（内科主治医生）。

这项研究由 Harvard Medical School（哈佛医学院）和 Beth Israel Deaconess Medical Center（贝斯以色列女执事医疗中心）的医生与计算机科学家联合完成。

研究选取了 76 名进入 Beth Israel 急诊室的患者，比较两名内科主治医生与 OpenAI o1、4o 模型给出的诊断结果，再由另外两名不知情医生进行盲评。

结果显示，在每一个诊断节点上，o1 的表现都与医生相当，或略优于医生和 4o；其中差距最明显的是 initial ER triage（急诊初始分诊）阶段，也就是患者信息最少、判断最紧急的时候。

按研究披露的数据，在分诊阶段，o1 给出“完全正确或非常接近正确”的诊断比例为 67%，而两名内科主治医生分别为 55% 和 50%。研究团队强调，这次测试并没有对病历数据做额外预处理，模型看到的信息，就是医生当时在 electronic medical records（电子病历）中能看到的内容。

不过，研究并没有得出“AI 已能独立接管急诊诊断”的结论。作者明确表示，这一结果只是说明，AI 值得进入更严格的 prospective trials（前瞻性试验），以评估其在真实临床场景中的作用。研究也提到，此次测试仅基于文本信息，当前 foundation models（基础模型）在处理影像等非文本输入时，能力仍有限。

此外，这项研究也引发了外界对标题党式解读的警惕。有急诊医生指出，研究拿来对比的对象是内科主治医生，而不是 ER physicians（急诊科医生）；但急诊医生在首诊时最重要的任务，往往不是“猜中最终病名”，而是先判断患者是否存在致命风险。#医学影像 #ai问诊

05-06 发布