模型|预测致命疾病的算法,竟漏掉三分之二病例!AI诊断靠谱吗?

人工智能用于疾病的预测和诊断已经不是新鲜事 。 但最近 , 美国科学家的一项研究表明 , 人工智能在疾病诊断和预警方面的效果 , 或许并不像人们以为的那么乐观 。
这项研究于本周一发表在JAMA Internal Medicine期刊上 , 研究人员调查了美国电子健康企业Epic Systems的产品在败血症诊断中的准确率 , 证明了算法并不像公司宣传得那样有效 。
研究人员呼吁监管机构重视对败血症预测等医疗算法工具的监管 , 认为应对用于医疗的算法工具进行独立评估 。
最新研究:败血症预测算法只诊断出三分之一病例
Epic Systems是美国最大的电子健康记录公司 , 这家公司声称可以使用一种算法系统识别败血症 。 败血症是一种可能由全身性感染导致器官衰竭的致命疾病 , 该病较难在早期被发现 , 但及早治疗能大大提升患者的存活机会 。
Epic开发了一套败血症预测模型 , 和其他类似的自动警告工具一样 , 该模型会扫描患者的检测结果 , 来判断患者是否有患败血症的迹象并发出警告 。 Epic公司此前表示 , 在区分两名患有和未患有败血症的患者时 , 其模型至少有 76% 的正确率 。 在美国 , 大约四分之一的医院使用Epic的电子病历 , 数百家医院使用其败血症预测模型 。
但最新的研究结果表明 , Epic模型预测败血症患者的准确率不佳 。
研究人员选取密歇根医学中心近3万名患者的病历数据为样本 , 其中大约有2500名是败血症患者 , 研究人员使用Epic的诊断模型对全部3万名患者的病历数据进行诊断 , 结果发现 , 有三分之二的患者没有被该模型确诊为败血症患者 。 另外 , 该模型检测出7%的患者没有及时得到抗生素治疗 , 研究人员在论文中写道“这说明Epic诊断模型与临床实践相比 , 敏感性较低” 。
【模型|预测致命疾病的算法,竟漏掉三分之二病例!AI诊断靠谱吗?】在研究人员看来 , 该诊断预警模型非但对医生的帮助不大 , 还可能给医生造成负担 。 原因是Epic 系统的大部分警报都是误报 。 在该研究中 , 系统对近6000名患者发出了警报 。 结果表明 , 当它标记一个病人时 , 这个人只有 12% 的概率患上败血症 。
“从这些警报中 , 你能获得的价值很少 。 ”该论文作者辛格说 。 他认为 , 该系统可能会导致医护人员的“警报疲劳” , 医护人员每天面对不断弹出的窗口和警报声 , 可能会感到不知所措并开始忽略通知 。
更加荒谬的是 , 研究人员发现 , Epic公司模型之所以能通过电子病历中较准确地判断败血症患者 , 是因为该算法模型会识别医院开出的败血症治疗的账单代码 。 也就是说 , 官方宣称的准确率其实是一种假象 。 很多情况下 , Epic系统诊断败血症是基于医生已经做出的诊断 。 “没有人会用账单代码来检测谁患有败血症 。 ”辛格说 。
AI辅助诊断工具普遍 , 评估和监管欠缺
Epic公司对该研究结果提出了异议 , 其发言人称 , 有其他研究结果表明 , 该败血症预警算法是准确的 , 并称该系统“帮助临床医生挽救了数千人的生命” 。
据媒体报道 , AI辅助诊断和医疗的工具越来越多 , 但对其有效性却缺少评估 。 在 COVID-19 疫情早期 , Epic 推出了另一个预测工具 , 旨在帮助医生决定哪些患者应该进入重症监护室 , 哪些患者不需要进入 。 由于疫情非常紧急 , 因此很多医院在没有对该工具进行独立评估的情况下就开始使用它 。
后来 , 一项小型研究表明 , 它可以识别高危和低危患者 , 但这可能帮不到医生 。 布朗大学的研究人员警告称 , 该系统中可能存在无法预料的问题或偏见 。
约翰霍普金斯医学院副教授Roy Adams表示 , 希望看到更多研究来推动医疗领域的算法 。 “我们需要对这些系统进行更多独立评估 。 ”他说 。
他认为 , 像Epic这样的系统正变得越来越普遍 , 但医院管理人员几乎没有关于它们如何操作的数据 , 即使可以获得数据 , 也缺乏明确的标准来评估系统 。
辛格也呼吁Epic这样的医疗健康公司提高其产品的透明度 。 他指出 , 监管机构应该对败血症预测工具等医疗算法系统有足够的重视 。
综合/编译:南都见习采访人员李娅宁

    推荐阅读