SCAN: Structure Correcting Adversarial Network for Organ Segmentation in Chest X-rays(译)

ps:机械翻译一下一篇论文

摘要:

  胸部X射线(CXR)是最常用的医学成像程序之一,其扫描量通常比其他成像方式(如MRI,CT扫描和PET扫描)高2到10倍。这些大量的CXR扫描给放射科医生和医学从业人员增加了很多工作量。器官分割是在CXR上获得有效的计算机辅助检测的关键步骤。在这项工作中,我们提出了结构校正对抗网络(SCAN)来分割CXR图像中的肺野和心脏。 SCAN包含了一个批评者网络,以将来自人类生理学的结构规律性强加于卷积分割网络上。在训练过程中,批评者网络学会了从分割网络合成的面具中辨别出“地面真实器官注释”。通过这种对抗过程,评论家网络学习了更高阶的结构,并指导了分割模型以实现切合实际的分割结果。大量的实验表明,我们的方法可以产生高度准确和自然的分割。仅使用非常有限的培训数据,我们的模型就可以达到人类水平的绩效,而无需依赖任何现有的经过培训的模型或数据集。我们的方法还可以很好地将不同患者群体和疾病概况的CXR图像概括化,从而超越了当前的最新水平。

1.介绍

  胸部X射线(CXR)是最常见的医学成像方式之一。由于CXR的低成本和低剂量辐射,每天在典型的医院中会产生数百到数千个CXR,这会产生大量的诊断工作量。在2015/16年度,英国公共医疗部门要求提供超过2250万张X射线图像,占医学图像总数的55%以上,并主导了所有其他成像方式,例如计算机断层扫描(CT)扫描(4.5M)和MRI(3.1M)[8]。在X射线图像中,有8百万是胸部X射线,相当于每个放射线医师每年的CXR读数成千上万。在发达国家[19,18],更不用说发展中国家[1],放射科医生的短缺已得到充分的证明。与更现代的医学成像技术(例如CT扫描和PET扫描)相比,X射线由于其分辨率低和二维投影而对诊断提出了挑战。因此,开发支持胸部X射线的计算机辅助检测方法以支持临床医生至关重要。

  在计算机辅助的CXR图像检测中,重要的一步是器官分割。 肺野和心脏的分割提供了有关形状不规则和大小测量的丰富结构信息,可用于直接评估某些严重的临床状况,例如心脏肥大(心脏肿大),气胸(肺塌陷),胸腔积液, 和肺气肿。 此外,明确的肺区域面罩还可以提高计算机辅助检测的可解释性,这对临床使用很重要。

  CXR分割的一项主要挑战是将轮廓确定所涉及的隐式医学知识纳入其中。 从最基本的意义上说,肺野和心脏之间的位置关系暗示着肺和心脏面罩的邻接。 此外,当医学专家注释肺野时,他们会在肺野周围寻找某些一致的结构(图2)。 如图1所示,这种先验知识有助于解决由病理状况或成像质量差引起的不太清晰的区域周围的边界。因此,成功的分割模型必须有效地利用全局结构信息来解决局部细节。

  不幸的是,与自然图像不同,由于涉及医疗专业人员的昂贵标签采购,具有像素级注释的CXR训练数据非常有限。 此外,CXR在不同的患者人群,病理状况以及影像技术和手术方面表现出很大的差异。 最后,CXR图像是灰度图像,与自然图像完全不同,这可能会限制现有模型的可传递性。 现有的CXR器官分割方法通常依赖于手工制作的功能,当应用于不同的患者群体,疾病特征和图像质量时,这些功能可能会很脆弱。 此外,这些方法并未以原则性的方式明确地在局部信息与全局结构之间取得平衡,这对于实现适用于诊断任务的切分结果至关重要。

  在这项工作中,我们建议使用结合批评者网络的结构校正对抗网络(SCAN)框架来指导卷积分割网络,以实现准确,逼真的胸部X射线器官分割。通过使用卷积网络方法进行器官分割,我们回避了基于特设特征工程的现有方法所面临的问题。仅我们的卷积分割模型就可以实现与现有方法相竞争的性能。然而,由于训练数据有限,仅分割模型无法捕获足够的全局结构来生成自然轮廓。为了强加基于生理结构的正则化,我们引入了一个批评者网络,该网络区分由分割网络合成的掩码和地面真相注释。分割网络和评论者网络可以端到端地训练。通过这种对抗过程,批评网络可以学习更高阶的规则并将有效的全局信息传回细分模型,从而实现现实的细分结果。

  我们证明,即使在很小的数据集上进行训练,SCAN仍可以产生高度现实且准确的细分结果,而无需依赖任何现有模型或其他领域的数据。 借助全球结构信息,我们的细分模型能够解决需要大量先验知识的困难边界。 使用联盟交会(IoU)作为评估指标,SCAN绝对可以将分割模型提高1.8%,对于肺野和心脏,分别达到94.7%和86.6%,这两者都是新的现状 单一模型制作的艺术作品,可与人类专家竞争(肺部为94.6%,心脏为87.8%)。 我们进一步证明,当将SCAN模型应用于新的,看不见的数据集时,它的健壮性要高出香草分割模型4.3%。

2.相关工作

   我们的研究重点是与我们的问题最相关的两类文献:肺野分割和卷积神经网络的语义分割。肺野分割。现有的关于肺野分割的工作大致分为三类[30]。 (1)基于规则的系统应用了预定义的阈值和形态学操作集,这些操作是从启发式方法中得出的[12]。 (2)像素分类方法根据像素强度将像素分类为肺野的内部或外部[37、15、16、2]。 (3)最近的方法基于可变形模型,例如活动形状模型(ASM)和活动外观模型[7、6、28、29、24、32、23、33]。由于调整参数以及形状模型是否初始化为实际边界,它们的性能可能会发生很大变化。同样,肋骨笼和肺野之间的高对比度会导致模型陷入局部最小值。我们的方法使用卷积网络来执行从图像到像素蒙版的端到端训练,而无需使用临时功能。拟议的对抗性训练将先前的结构知识进一步整合到一个统一的框架中。

  当前用于肺野分割的最新方法使用基于配准的方法[3]。 为了为测试患者建立肺模型,[3]在现有数据库中找到与测试患者最相似的患者,并根据关键点匹配对他们的肺部轮廓进行线性变形。 这种方法依靠现有肺部轮廓和“正确匹配的关键点”对受试患者进行了很好的建模,这两种方法在不同人群中都易碎。

  卷积网络的语义分割。 语义分割的目的是为每个像素分配一个预定义的类,这需要高级的视觉理解。 当前用于语义分割的最新方法使用完全卷积网络(FCN)[14、35、5、13]。 最近[17]将对抗训练应用于语义分割并观察到一些改进。 这些工作用色彩输入解决了自然图像,并经过诸如VGG网络[27]等模型的预训练,并结合了从大规模图像分类中的学习[22]。 我们在247个图像的非常有限的训练数据集的严格约束下,将FCN调整为灰度CXR图像。 我们的FCN不同于常规的VGG架构,可以进行培训,而无需从现有模型或数据集中进行转移学习。

  另外,U-net [21]和类似的体系结构是流行的用于生物医学分割的卷积网络-并已应用于神经元结构[21]和组织学图像[4]。 在这项工作中,我们建议对现有的细分网络进行对抗训练,以增强细分结果的整体一致性。

  我们注意到,最近有越来越多的工作在CXR图像上端到端应用神经网络[25,34]。 这些模型直接输出临床目标,例如疾病标签,而没有明确的中间输出以帮助解释。 此外,它们通常需要大量的CXR图像进行训练,这在涉及CXR图像的许多临床任务中并不容易获得。

3.问题定义

  我们解决了在后前部(PA)视图中对胸部X射线(CXRs)分割左肺野,右肺野和心脏的问题,其中放射线从后向前穿过患者。由于事实是CXR是3D结构的2D投影,因此器官明显重叠,因此在定义肺野时必须格外小心。我们采用[31]的定义:肺视野由辐射穿过肺但不穿过以下结构的所有像素组成:心脏,纵隔(两个肺之间的不透明区域),横diaphragm膜下方,主动脉和上腔静脉(如果可见)(图2)。心脏边界通常在两侧可见,而由于纵隔闭塞,必须推断出心脏的顶部和底部边界。如图1所示,该定义涵盖了“肺野和心脏的共同概念”,并包括在临床环境中与CXR读数相关的区域。

4.结构校正对抗网络

  我们使用提出的结构校正专家网络(SCAN)框架详细介绍了对肺野和心脏进行语义分割的方法。 为了适应CXR图像的特殊问题设置,我们遵循最佳实践和广泛实验从头开始开发我们的网络体系结构。 使用比自然图像的普通语义分割数据集小一个数量级的数据集,我们的模型可以从头到尾地训练到出色的泛化能力,而无需依赖现有的模型或数据集。

4.1 语义分割的对抗训练

  对抗训练最早是在生成建模1的背景下由创广专家网络(GAN)提出的[9]。 GAN框架由参与对抗性两人游戏的生成器网络和评论器网络组成,其中生成器旨在学习数据分布,评论器估计样本来自训练数据的可能性,而不是通过 发电机。 生成器的目的是“使批评者犯错的概率最大化,而批评者被优化以使犯错的可能性最小化。 事实证明,生成器会生成高度逼真的样本(例如图像)[20]。 

  在对抗过程中的一个关键见解是,评论者(可以是一个复杂的神经网络)可以学习“利用发生器生成的样本中的更高阶不一致”。 通过生成器和注释器的相互作用,注释器可以指导生成器“生成与训练样本中的更高阶结构更一致的样本,从而使数据生成过程更加”真实”。

  评论家强制执行的更高阶一致性对于CXR分段特别有用。 人体解剖学尽管在个体之间表现出很大的差异,但通常在生理结构之间保持稳定的关系(图2)。 由于采用标准化的成像程序,CXR还可以对这些结构提供一致的视图。 因此,我们可以期望批评者学习这些更高阶的结构,并指导分割网络生成与学习的全局结构更一致的蒙版。

  我们建议使用对抗训练来分割CXR图像。 图3显示了将对抗过程与语义分割相结合的整体SCAN框架。 该框架由共同训练的细分网络和评论者网络组成。 分割网络对目标类别进行像素级预测,在GAN中扮演生成器的角色,但以输入图像为条件。 另一方面,评论者网络将分割掩码作为输入,并输出输入掩码是地面真相注释的概率,而不是分割网络的预测。 可以通过在优化分段网络和评论器网络之间交替的minimax方案联合训练网络。

4.2 训练目标

  令S,D分别为分割网络和评论者网络。

4.3 分割网络

  我们的分割网络是完全卷积网络(FCN),它也是许多最先进的语义分割模型中的核心组件[14,35,5]。 FCN的成功在很大程度上归因于卷积神经网络具有出色的能力,可以提取适合于密集分类的高级表示。 FCN可以分为两个模块:下采样路径和上采样路径。 下采样路径由卷积层和最大或平均池化层组成,其结构类似于图像分类中使用的结构[27]。 下采样路径通常可以在较低的空间分辨率下提取高级语义信息。 上采样路径由卷积层和“反卷积层”(也称为转置卷积)组成,以使用下采样路径的输出来预测像素级别上每个类别的分数。
  大多数FCN应用于具有RGB通道的彩色图像,并且其下采样路径使用在大规模图像分类中训练的参数来初始化[14]。 但是,CXR是灰度级的,因此,在图像分类网络中使用的较大模型容量会利用更丰富的RGB输入,这可能会适得其反。 此外,我们的FCN架构必须高度简约,以考虑到我们的247个CXR图像的训练数据集比自然图像域中的训练数据集小几个数量级。 最后,在我们的任务中,我们专注于分割三个类别(左肺,右肺和心脏),与具有20个类别对象的数据集(例如PASCAL VOC)相比,该类别空间较小。 因此,在这种情况下,更简化的模型配置是非常有利的。

  图4显示了我们的FCN架构。 我们发现,与传统的基于VGG的下采样路径相比,使用特征图少得多是有利的。 具体来说,我们从第一层的8个特征图开始,而VGG的第一层则只有64个特征图[27]。 为了获得足够的模型容量,我们将深入20个卷积层。 我们还在最后几层中将1×1卷积与3×3交织,以模拟瓶颈设计[10]。 总而言之,分割网络包含271k个参数,比基于VGG的FCN [14]小500倍。 我们采用残差块[10](图4(b))来辅助优化。 简约的网络构造使我们能够有效地对其进行优化,而无需依赖任何现有的训练模型,该模型对于灰度图像不可用。

4.4 评论家网络

  我们的评论家网络反映了分段网络的构建,并且也是完全卷积的网络。 图5显示了体系结构,省略了与分段网络相同的中间层。 这样,批判者网络具有与具有相似视场的分割网络类似的模型容量,这很重要,因为CXR图像中的对象较大。 我们可以选择将原始CXR图像作为评论者的输入作为附加渠道,与[17]相比,这是将图像纳入批评者网络的一种更为经济的方法。 初步实验表明,包括原始CXR图像并不能改善性能,因此,为简单起见,我们仅将遮罩预测提供给了批注者网络。 总体而言,我们的评论家网络具有258k参数,与细分网络相当。


 

猜你喜欢

转载自blog.csdn.net/qq_36401512/article/details/103272791