一项发表于 Science(《科学》) 的新研究显示,在真实急诊病例测试中,OpenAI 的 o1 模型在部分诊断环节的表现,达到甚至略高于两名 internal medicine attending physicians(内科主治医生)。
这项研究由 Harvard Medical School(哈佛医学院) 和 Beth Israel Deaconess Medical Center(贝斯以色列女执事医疗中心) 的医生与计算机科学家联合完成。
研究选取了 76 名 进入 Beth Israel 急诊室的患者,比较两名内科主治医生与 OpenAI o1、4o 模型给出的诊断结果,再由另外两名不知情医生进行盲评。
结果显示,在每一个诊断节点上,o1 的表现都与医生相当,或略优于医生和 4o;其中差距最明显的是 initial ER triage(急诊初始分诊) 阶段,也就是患者信息最少、判断最紧急的时候。
按研究披露的数据,在分诊阶段,o1 给出“完全正确或非常接近正确”的诊断比例为 67%,而两名内科主治医生分别为 55% 和 50%。研究团队强调,这次测试并没有对病历数据做额外预处理,模型看到的信息,就是医生当时在 electronic medical records(电子病历) 中能看到的内容。
不过,研究并没有得出“AI 已能独立接管急诊诊断”的结论。作者明确表示,这一结果只是说明,AI 值得进入更严格的 prospective trials(前瞻性试验),以评估其在真实临床场景中的作用。研究也提到,此次测试仅基于文本信息,当前 foundation models(基础模型) 在处理影像等非文本输入时,能力仍有限。
此外,这项研究也引发了外界对标题党式解读的警惕。有急诊医生指出,研究拿来对比的对象是 内科主治医生,而不是 ER physicians(急诊科医生);但急诊医生在首诊时最重要的任务,往往不是“猜中最终病名”,而是先判断患者是否存在致命风险。#医学影像 #ai问诊