计算机将症状与疾病联系起来的能力有多强?

麻省理工学院的一项新研究发现,“健康知识图表”显示症状和疾病之间的关系,旨在帮助临床诊断,但对于某些情况和患者群体来说可能会有所欠缺。结果还提出了提高他们表现的方法。

健康知识图表通常由专业临床医生手工编制,但这可能是一个费力的过程。最近,研究人员尝试从患者数据中自动生成这些知识图表。麻省理工学院团队一直在研究这些图表在不同疾病和患者群体中的支持程度。

在2020年太平洋生物计算研讨会上发表的一篇论文中,研究人员评估了基于真实数据集自动生成的健康知识图表,该数据集包括270,000多名患有近200种疾病和770多种症状的患者。

该小组分析了各种模型如何使用电子健康记录(EHR)数据,包括患者的医疗和治疗史,来自动“学习”疾病症状相关的模式。他们发现,对于老年或年轻患者比例高,或男性或女性患者比例高的疾病,模型表现尤其差——但是为正确的模型选择正确的数据,并进行其他修改,可以提高性能。

这个想法是在使用电子健康记录构建健康知识图表时,就数据集大小、模型规范和性能之间的关系为研究人员提供指导。这可能会带来更好的工具来帮助医生和患者做出医疗决策,或者寻找疾病和症状之间的新关系。

“在过去的10年里,EHR在医院的使用率飞速上升,所以我们希望挖掘出大量的数据来学习这些疾病症状关系的图表,”第一作者艾琳·陈说,她是EECS电气工程和计算机科学系的研究生。“我们必须仔细检查这些图表,以便将其用作诊断工具的第一步。”

麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究生莫尼卡·阿格拉瓦尔也加入了陈的讨论;贝丝·伊斯雷尔女执事医疗中心(BIDMC)的史蒂文·霍恩;和EECS教授大卫·桑塔格,他是CSAIL和医学工程与科学研究所的成员,也是临床机器学习小组的组长。

病人和疾病

在健康知识图表中,有数百个节点,每个节点代表不同的疾病和症状。边缘(线条)将疾病节点(如“糖尿病”)与相关症状节点(如“过度口渴”)连接起来众所周知,谷歌在2015年推出了自己的版本,该版本由几名临床医生在数百小时内手工策划,被认为是黄金标准。当你现在搜索一种疾病时,系统会显示相关症状。

在2017年自然科学报告论文、桑塔格、霍恩和其他研究人员在他们当前的研究中利用了来自同样270,000名患者的数据——这些数据来自2008年至2013年间BIDMC的急诊科——来构建健康知识图表。他们使用三种模型结构来生成图表,称为逻辑回归、朴素贝叶斯和噪声或。利用谷歌提供的数据,研究人员将他们自动生成的健康知识图与谷歌健康知识图进行了比较。研究人员的图表表现非常好。

在他们的新工作中,研究人员进行了严格的误差分析,以确定模型对哪些特定病人和疾病表现不佳。此外,他们尝试从急诊室之外用更多的数据来扩充模型。

在一项测试中,他们将数据分解成疾病和症状的亚群。对于每一个模型,他们研究了疾病和所有可能症状之间的联系,并与GHKG进行了比较。在这篇论文中,他们将这些发现分为50种表现最差的疾病和50种表现最好的疾病。表现不佳的例子有多囊卵巢综合征(影响女性)、过敏性哮喘(非常罕见)和前列腺癌(主要影响老年男性)。高绩效者是更常见的疾病和病症,如心律不齐和足底筋膜炎,即足部组织肿胀。

他们发现,对于几乎所有的疾病和病人来说,噪声或模型是最强有力的总体误差模型。但是对于患有多种并存疾病和并存症状的患者,以及非常年轻或85岁以上的患者,所有模型的准确性都有所下降。任何性别比例很高或很低的患者群体的表现也会受到影响。

研究人员假设,本质上,不良表现是由具有异常预测能力的患者和疾病以及潜在的无法测量的混杂因素造成的。例如,老年患者比年轻患者更容易进入疾病和相关症状较多的医院。陈说,这意味着模型很难将特定疾病与特定症状联系起来。“同样,”她补充道,“年轻患者没有太多的疾病或症状,如果他们有罕见的疾病或症状,就不会以模型理解的正常方式出现。”

拆分数据

研究人员还收集了更多的患者数据,并创建了三个不同粒度的不同数据集,看看这是否能提高性能。对于原始分析中使用的270,000次访问,研究人员提取了140,804名独特患者的完整EHR病史,追溯到十年前,共有来自不同来源的大约740万份注释,例如医生笔记。

数据集创建过程中的选择也会影响模型性能。其中一个数据集将140,400个病历中的每一个汇总为一个数据点。另一个数据集将740万个注释中的每一个视为单独的数据点。最后一个为每个患者创建“发作”,定义为连续的一系列访问,不间断超过30天,总共产生大约140万次发作。

直观地说,将完整的患者历史汇总到一个数据点的数据集应该会带来更高的准确性,因为会考虑到整个患者历史。然而,与直觉相反,这也导致朴素贝叶斯模型在某些疾病中表现更差。“你假设机器学习模式下,患者体内的信息越多越好。但是这些模型取决于你提供给它们的数据的粒度,”陈说。“你使用的模型类型可能会被淹没.”

正如预期的那样,提供模型人口统计信息也是有效的。例如,模型可以使用这些信息排除所有男性患者,例如预测宫颈癌。老年患者更常见的某些疾病可以在年轻患者中消除。

但是,另一个令人惊讶的是,人口统计信息并没有提高最成功的模型的性能,所以收集这些数据可能是不必要的。陈说,这很重要,因为在数据上编译数据和训练模型既昂贵又耗时。然而,根据模型的不同,使用大量数据实际上可能不会提高性能。

接下来,研究人员希望利用他们的发现建立一个健壮的模型,用于临床应用。目前,健康知识图表学习疾病和症状之间的关系,但不能从症状中直接预测疾病。“我们希望任何预测模型和医学知识图表都将接受压力测试,这样临床医生和机器学习研究人员可以自信地说,‘我们相信这是一个有用的诊断工具。’”陈说。

发布了24 篇原创文章 · 获赞 15 · 访问量 5235

猜你喜欢

转载自blog.csdn.net/zqky2019/article/details/103958812