新研究发现 OpenAI 的 o1-preview AI 模型在诊断棘手医疗案例方面优于医生
IT之家于12月25日报道,来自哈佛医学院和斯坦福大学的研究团队对OpenAI的o1-preview模型在医学诊断领域进行了深入分析,结果显示该模型在处理复杂医疗案例方面的表现优于人类医生。
研究结果表明,o1-preview在测试案例中的正确诊断率达到了78.3%,在70个特定案例的比较测试中,有高达88.6%的准确率,远超其前身GPT-4的72.9%。
借助医学推理质量评估标准R-IDEA,o1-preview在80个案例中取得了78个满分成绩。相对而言,资深医生在满分案例中仅获28个,而住院医生的满分数量更是仅为16个。
在25位专家设计的复杂案例测试中,o1-preview的得分高达86%,远远超过使用GPT-4的医生(得分41%)和使用传统工具的医生(34%)。
尽管如此,研究人员也指出此次测试的局限性。部分测试案例或许已经包含在o1-preview的训练数据中,且测试过程主要侧重于系统的单独运行,未充分考虑其与人类医生合作的情境。此外,o1-preview推荐的诊断测试成本较高,其实际应用面临一定的限制。
IT之家提供参考链接
Superhuman performance of a large language model on the reasoning tasks of a physician
OpenAI's o1-preview outperforms doctors in diagnosing tricky medical cases, study finds
广告声明:本文包含的外部链接(包括但不限于超链接、二维码、口令等形式)旨在传达更多信息,提升信息获取的便利性,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。