【半监督医学图像分割 2021 TMI】SimCVD 论文翻译

【半监督医学图像分割 2021 TMI】SimCVD 论文翻译

论文题目:SimCVD: Simple Contrastive Voxel-Wise Representation Distillation for Semi-Supervised Medical Image Segmentation

中文题目:用于半监督医学图像分割的简单对比体素表示蒸馏

论文链接:https://arxiv.org/abs/2108.06227

论文代码:

论文团队:耶鲁大学&德克萨斯大学

发表时间:2021年8月

引用:You C, Zhou Y, Zhao R, et al. Simcvd: Simple contrastive voxel-wise representation distillation for semi-supervised medical image segmentation[J]. IEEE Transactions on Medical Imaging, 2022, 41(9): 2228-2237.

引用数:60(截止时间:2023年2月13号)

摘要

医学图像分析中的自动分割是一项具有挑战性的任务,它需要大量的人工标记数据。

然而,现有的基于学习的医学图像分割方法通常都存在着人工标注的医学数据有限的问题,这给精确和鲁棒的医学图像分割提出了一个重要的现实问题。

另外,现有的半监督方法与监督方法相比,鲁棒性较差,且缺乏对几何结构和语义信息的显式建模,限制了分割的准确性。

在这项工作中,我们提出了SIMCVD,一个简单的对比蒸馏框架,显着地推进了最先进的体素表示学习。

我们首先描述了一种无监督训练策略,它采用输入体积的两个视图,在一个对比目标中预测它们的目标边界的符号距离图,只有两个独立的droupout作为掩码

这种简单的方法工作得出奇地好,与以前的完全监督方法在相同的水平上执行,标记数据少得多。

我们假设dropout可以被看作是一种最小形式的数据增加,并使网络对表示崩溃具有鲁棒性。

然后,我们提出通过提取成对相似性来进行结构蒸馏。

我们在两个流行的数据集上评估SIMCVD:左心房分割挑战(LA)和NIH胰腺CT数据集。

在LA数据集上的结果表明,在20%和10%两种标记率下,SIMCVD的DICE平均得分分别为90.85%和89.03%,比以往最好的结果分别提高了0.91%和2.22%。 我们的方法可以以端到端的方式训练,显示了利用SIMCVD作为下游任务的通用框架的前景,如医学图像合成、增强和配准。

1. 介绍

医学图像分割是机器学习和医学成像领域的一个热门课题[1]-[5]。

与传统的分割方法相比,基于深度神经网络的分割方法近年来在表征学习方面取得了巨大的进步[6]-[13]。

然而,现有的方法大多是用大量的标记数据训练的,这在许多医学分割任务中提出了重大的实际挑战,其中标记数据很少,因为注释图像的负担很重。


近年来,为了解决这些问题,设计了各种各样的半监督方法[14]-[26],这些方法从有限的标记数据和大量的未标记数据中学习,在准确率上有了显著提高,并大大降低了标记成本。

常见的学习范式包括对抗学习、知识提炼和自监督学习。

对比学习是自监督学习的一个分支,近年来被认为是一个很有前途的方向,因为它在有限的人的监督下学习有用的表征[25],[27]-[30]。

这通常被最好地理解为在一个共享的潜在空间中聚集语义相似的(积极的)样本,并将非相似的(消极的)样本分开。

这些对比目标所揭示的表示能够提高任何视觉系统的性能,特别是在下游任务可用的注释数据量极低的情况下,这非常适合于医学图像分析。

尽管半监督学习基准取得了一些进展,但前人的方法仍然面临着几个主要挑战:

(1)性能次优:尽管前人的工作在有限注释的设置下取得了很好的分割精度,但与全监督模型相比,半监督模型通常由于信息丢失而不是鲁棒性;

(2)几何信息丢失:以往的分割网络不能很好地刻画图像的几何特征,即不能充分利用图像的固有几何结构,如目标边界。 因此,通常很难准确地识别物体的轮廓; 和(3)泛化能力:考虑到训练数据量有限,训练深度模型通常由于过拟合和协适应而不足[31],[32]。


在这项工作中,我们解决了一个问题:我们能否在一个更极端的少注释设置中推进最先进的体素表示学习用于医学图像分割?

为此,我们提出了一个简单的对比体素表示精馏框架SIMCVD,利用该框架可以从未标记的数据中产生优越的体素表示,以提高网络性能。

我们提出的SIMCVD建立在mean-教师框架[33]之上,可以解决上述挑战如下。

首先,SIMCVD仅用两个不同的dropout[34]掩码预测输出几何表示(图1)。

换句话说,我们将几何表示的两个视图传递给均值-教师模型,通过应用两个独立的丢包掩码获得两个表示作为“正对”,并通过在共享的潜在空间中有效地关联正项和分离负项来学习有效的表示。

虽然这种无监督学习策略很简单,但与其他常用的数据增强技术(如修补和局部洗牌像素)相比,这种方法是非常有效的。

更重要的是,正如我们将展示的,它实现了与以前的全监督方法相媲美的性能。

通过一系列深入的分析,我们发现Dropout可以看作是为了提高性能而进行的最小的数据增加,它可以有效地规则化深度神经网络的训练,避免表示崩溃,增强模型的泛化能力。


其次,我们将几何信息丢失的原因归因于对几何形状约束的需要。

我们通过执行多任务学习来解决这个挑战,该多任务学习联合预测分段图和符号距离图(SDM)[12],[22],[35]-[37]。

SDM计算对象的符号距离函数,即体素到对象边界的距离,符号由体素是否在对象内确定。

因此,它可以被看作是对标记数据的全局形状约束。

考虑到SDM可以提供更灵活的对象边界几何度量,我们超越了监督学习方案,通过在未标记数据中通过对比目标提取“边界感知”知识,利用不同对象类别之间几何形状的规律性。 这使得模型能够更有效地学习边界感知特征,鼓励网络在整个数据集上产生具有相似距离图分布的分割图。


第三,在小训练集上训练分割模型具有挑战性,因为在有限数据量上训练的深度神经网络容易出现过拟合。

为此,我们提出使用知识蒸馏(KD),它已被证明在分割和分类任务中是有效的[38]-[40]。

KD的核心思想是先训练一个教师模型,然后用它来指导学生模型的训练,以提高概括能力。

在医学领域,现有的KD方法[41]、[42]将分割问题简单地看作像素/体素级别的分类问题。

针对医学图像语义分割是一个结构化的预测问题,提出了一种新的结构化知识对蒸馏算法,该算法进一步利用了均值-教师模型中的结构化知识,避免了协同自适应和过拟合


我们的贡献概述如下。 首先,我们提出了一种新的对比蒸馏模型SIMCVD,该模型的特点是:

(i)包含丰富的物体形状信息的边界感知表示;

(ii)在共享潜在空间中联合对比不同距离图分布的蒸馏目标;

(iii)进一步提取成对结构知识的成对蒸馏目标。

其次,我们证明了在注释非常有限的情况下,与严重依赖大量标记数据相比,简单地使用Dropout可以提供更鲁棒的端到端分割性能。 第三,我们在两个流行的基准数据集上进行实验来评估SIMCVD。 结果表明,SIMCVD显著优于其他最先进的半监督方法,同时与完全监督方法相比取得了竞争性的性能。

2. 相关工作

半监督医学图像分割

半监督医学图像分割近几年来,由于注释有限,为了提高网络性能,[12]、[14]-[17]、[19]、[21]、[43]-[50]、[50]-[64]一直致力于引入未标记数据。 于等人。 [21]研究了一个基于均值-教师框架[33]的不确定性图,以指导学生网络捕捉更好的特征。 李等人。 [22]提出利用符号距离场进行边界预测以提高性能。 还有,罗等人。 [24]提出了一种用于半监督医学图像分割的双任务一致性(Duto-TaskConsistency,DTC)模型,该模型通过在未标记数据上联合预测像素级分割映射和全局级水平集表示。 我们的方法针对一个更实际和更具挑战性的场景:我们在一个更极端的少注释设置中训练我们的模型,该设置只依赖于少量的注释,同时获得更高的分割精度。

对比学习

对比学习自监督学习(SSL)[62],[65]-[67]通过在无监督环境下从无标记数据中学习有效的视觉表征,为视觉任务提供了强大的优势。 它基于一个普遍的信念,即通过改进的表征学习可以获得更好的性能增益。 近年来,对比学习作为一种自监督学习受到了广泛的关注[25]、[27]、[30]、[65]、[68]-[73]。 对比学习的关键思想是学习优化相似性约束的强大表示,以区分数据集中的相似对(正)和不相似对(负)。 随后的主要工作集中在不同对的选择上,这对习得表征的质量至关重要。 用于量化对比度的损失函数是从几个选项中选择的,如Infonce[74],Triplet[75],等等。 最近的研究[68],[70]引入了记忆库或动量对比度,以使用更多的负样本进行对比度计算。 在医学影像学的背景下,Chaitanya等人。 [25]扩展了一个对比学习框架,以分阶段的方式提取全局和局部线索,这需要人工干预和大量的训练时间。 与Chaitanya等人形成对比。 [25],我们的统一工作侧重于以端到端的方式对语义对象的内在几何结构进行显式建模,从而能够更有效地识别对象边界。

知识精馏

知识精馏的思想是使教师模型和学生模型输出分布之间的KL-散度最小,从而避免过拟合。

KD已经被应用于多种任务[76]-[81],包括图像分类[38]、[82]-[84]和语义分割[40]、[85]。

最近的研究[82],[83]发现,当学生模型共享相同的网络架构时,它们的性能优于教师模型。 张等人。 [86]提出用共蒸馏协同训练多个学生模型,提高了这些单个模型的性能。

同时,在医学影像领域,在现有的最先进的KD方法中,自集成均值教师框架[33]被广泛应用于图像分割。

不同于已有的分别为每个体素开发类概率的方法,我们将知识提取看作是一个结构化的预测问题,它通过匹配MeanTeacher模型编码特征映射中所有对体素之间的关系相似度来实现。

我们发现我们的方法显著地提高了学习更好的体素表示。

3. 方法

在本节中,我们将介绍SIMCVD,一种半监督分割网络,它是通过有效地利用稀少的标记数据和大量的未标记数据来改进端到端的体素表示学习而从头开始构建的(见图1)。 我们首先概述了我们提出的SIMCVD,然后描述了SIMCVD的任务描述。 最后,我们在下面的小节中详细介绍了SIMCVD的每个组件。

image-20230214103936721

3.1 总览

我们的目标是构造一个端到端的体素对比精馏算法,在极少注释的情况下学习边界感知表示,用于体积医学图像分割。 尽管监督模型的精度通常高于半监督模型,但前者需要的标记数据要比后者多得多。 在许多临床情况下,我们只有很少的注释数据,但大量的未标记数据。 这种情况需要一种半监督分割算法来利用未标记数据来提高分割性能。


为此,我们提出了一个新的对比蒸馏框架来推进目前最先进的体素表示学习。

特别地,我们的多任务分割网络同时处理两个任务:分类和回归。

具体来说,分割网络取输入的卷批,联合预测对象的概率图(分类)和SDMS(回归)。

为了获得更好的表示,我们提出在潜在特征空间中进行结构化提取,然后在预测空间中对比边界感知特征,通过正则化嵌入空间和探索训练体素的几何和空间上下文,从三维未标记数据中学习更有效的边界感知表示。

在测试时,我们删除了平均教师和两个投影头,只部署学生网络来完成医学分割任务。

3.2 任务制定

在本文中,我们考虑了一组包括 N N N个标记数据和 M M M个未标记数据的训练数据(三维图像),其中 N ≪ M N\ll M NM

为简单起见,我们将小的标记数据表示为 D l = { ( X i , Y i , Y i s d m ) } i = 1 N \mathcal{D}_l=\{(\bold{X}_i,\bold{Y}_i,\bold{Y}_i^{sdm})\}_{i=1}^N Dl={(Xi,Yi,Yisdm)}i=1N,

大量的未标记数据表示为 D u = { X i } i = N + 1 N + M \mathcal{D}_u=\{\bold{X}_i\}_{i=N+1}^{N+M} Du={ Xi}i=N+1N+M,

其中 X i ∈ R H × W × D \bold{X}_i\in \mathbb{R}^{H\times W\times D} XiRH×W×D是体积输入, Y i ∈ { 0 , 1 } H × W × D \bold{Y}_i\in\{0,1\}^{H\times W\times D} Yi{ 0,1}H×W×D是真实标注,

Y i s d m ∈ R H × W × D \bold{Y}_i^{sdm}\in \mathbb{R}^{H\times W\times D} YisdmRH×W×D是由 Y i \bold{Y}_i Yi计算的标注SDMS,它度量每个体素到物体边界的距离。

每个三维图像 X i \boldsymbol{X}_i Xi由一组二维图像切片 X i = [ x i , l , ⋯   , x i , D ] \bold{X}_i=[x_{i,l},\cdots,x_{i,D}] Xi=[xi,l,,xi,D]组成,其中 x i , j ∈ R H × W x_{i,j}\in \mathbb{R}^{H\times W} xi,jRH×W


我们提出的SIMCVD框架由教师网络 F t ( X ; θ t ) \mathcal{F}_t(\bold{X};\theta_t) Ft(X;θt)和学生网络 F S ( X ; θ t ) \mathcal{F}_S(\bold{X};\theta_t) FS(X;θt)组成。

受最近研究[14]、[33]的启发,这两个网络的优化可以用指数移动平均(EMA)来实现,它使用学生网络参数和教师网络参数的加权组合来更新后者。

该策略已被广泛应用于提高训练的稳定性和模型的最终性能。

在这一理念的激励下,我们的培训策略分为两步。

在每次迭代时,我们首先用随机梯度下降优化学生网络 F t \mathcal{F}_t Ft

然后,我们使用学生权重θs的指数移动平均值更新教师权重θt。

两个网络的输入是同一图像的扰动版本。

也就是说,给定一个体积输入 X i X_i Xi,我们首先添加不同的扰动(即仿射变换和随机裁剪)来生成两个不同的图像XT I和XS I。 然后,将这两个相应的增强图像馈入 F t \mathcal{F}_t Ft F s \mathcal{F}_s Fs,得到两个置信度得分(概率)图 Q i t \bold{Q}_i^t Qit Q i t \bold{Q}_i^t Qit。 在我们详细介绍我们提出的SIMCVD之前,我们首先在下面描述我们的基本架构。

3.3 基础体系结构

Our 基础 架构 采用 V-Net [21] 随着 网络 backbone,

对于教师网络来说由编码器网络 e t e_t et: R H × W × D → R H ′ × W ′ × D ′ × D e \mathbb{R}^{H\times W\times D}\to \mathbb{R}^{H^\prime \times W^\prime \times D^\prime \times D_e} RH×W×DRH×W×D×De

解码器 d t d_t dt : R H ′ × W ′ × D ′ × D e → [ 0 , 1 ] H × W × D × [ − 1 , 1 ] H × W × D \mathbb{R}^{H^\prime \times W^\prime \times D^\prime \times D_e}\to [0,1]^{H\times W\times D}\times [-1,1]^{H\times W\times D} RH×W×D×De[0,1]H×W×D×[1,1]H×W×D,

F t = d t ∘ e t , F s = d s ∘ e s \mathcal{F}_t=d_t\circ e_t,\mathcal{F}_s=d_s\circ e_s Ft=dtet,Fs=dses D e D_e De是解码器特征维度

受到以前的工作在医学影像分割[12],[22]启发,我们将多任务学习结合到F中,共同执行分类和回归任务。


在给定输入 X i \mathbf{X}_i Xi的情况下,分类分支用于生成概率图 Q i s ∈ [ 0 , 1 ] H × W × D \mathbf{Q}_i^s\in [0,1]^{H\times W\times D} Qis[0,1]H×W×D,回归分支用于预测SDM Q i s d m ∈ [ − 1 , 1 ] H × W × D \mathbf{Q}_i^{sdm}\in [-1,1]^{H\times W\times D} Qisdm[1,1]H×W×D

回归分支的设计简单而有效,只包含双曲正切函数。

这种设计带来了两个明显的好处:

(1)我们最终可以编码丰富的几何结构信息来提高分割精度;

(2)我们可以隐式地加强连续性和平滑性,以获得更好的分割映射。 同样,我们有来自教师网络的输出 Q i t , Q i t , s d m \mathbf{Q}_i^t,\mathbf{Q}_i^{t,sdm} Qit,Qit,sdm

监督损失 L s u p \mathcal{L}_{\mathrm{sup}} Lsup对于标记数据的训练,我们将监督损失定义为:
L s u p = 1 N ∑ i = 1 N L s e g ( Q i s , Y i ) + α N ∑ i = 1 N L m s e ( Q i s , s d m , Y i s d m ) \mathcal{L}_{\mathrm{sup}}=\frac{1}{N} \sum_{i=1}^{N} \mathcal{L}_{\mathrm{seg}}\left(\mathbf{Q}_{i}^{s}, \mathbf{Y}_{i}\right)+\frac{\alpha}{N} \sum_{i=1}^{N} \mathcal{L}_{\mathrm{mse}}\left(\mathbf{Q}_{i}^{s, \mathrm{sdm}}, \mathbf{Y}_{i}^{\mathrm{sdm}}\right) Lsup=N1i=1NLseg(Qis,Yi)+Nαi=1NLmse(Qis,sdm,Yisdm)
其中 L s e g \mathcal{L}_{\mathrm{seg}} Lseg表示分割损失(骰子和交叉)[21],而 L m s e \mathcal{L}_{\mathrm{mse}} Lmse是均方误差损失。 α \alpha α是超参数。 注意,SDM损失[12]是作为训练中的几何约束而施加的。

3.4 边缘对比蒸馏

边界感知对比损失 L c o n t r a s t \mathcal{L}_{\mathrm{contrast}} Lcontrast

我们将我们的无监督边界感知对比目标描述如下。

我们的关键思想是通过一个对比学习目标来利用“边界感知”知识,该目标在训练过程中加强未标记集合上的预测SDM输出的一致性。

处理输入图像的两个视图的关键因素是应用Dropout作为掩码

具体来说,给定输入 X i \mathbf{X}_i Xi的集合,即学生SDM QS、SDM I、教师SDM QT、SDM I,我们首先将它们直接相加,以构建两个边界感知特性:QS,BA I=XI+QS,SDM I和QT,BA I=XI+QT,SDM I。 然后,我们用两个独立的辍学掩模ZS I和ZT I将它们送入投影头,并利用Infonce丢失来对比正负两种情况。 我们将来自两个边界感知特征的同一切片表示为正切片,将位于不同位置或来自不同输入的切片表示为负切片。


边界感知特征是通过将原始三维体添加到SDM中来创建的,因为我们希望融合距离和强度信息。

实现这一点的另一种方法是级联–向特征张量添加另一维–需要更复杂的投影头,这更容易过度拟合。 因此,投影头H:RH×W×D→RDH×D将每个2D切片编码为DH维特征向量。

其实现简单,包括Alpha dropout[90]、自适应平均池和3层多层感知器(MLP)。 在这里,MLP被设计成将每个2D切片转换成一个向量。 将投影头的输出表示为HS I=H(QS,BA I;ZS I),HT I=H(QT,BA I;ZT I),而HI的第J行表示为HI,J,则Infince损失[74]定义为:
L ( h i , j t , h i , j s ) = − log ⁡ exp ⁡ ( h i , j t ⋅ h i , j s / τ ) ∑ k , l exp ⁡ ( h i , j t ⋅ h k , l s / τ ) \mathcal{L}\left(\mathbf{h}_{i, j}^{t}, \mathbf{h}_{i, j}^{s}\right)=-\log \frac{\exp \left(\mathbf{h}_{i, j}^{t} \cdot \mathbf{h}_{i, j}^{s} / \tau\right)}{\sum_{k, l} \exp \left(\mathbf{h}_{i, j}^{t} \cdot \mathbf{h}_{k, l}^{s} / \tau\right)} L(hi,jt,hi,js)=logk,lexp(hi,jthk,ls/τ)exp(hi,jthi,js/τ)

双向蒸馏损失 L p d \mathcal{L}_{\mathrm{pd}} Lpd

一方面,boundaryaware对比目标发现独特的全球boundary-aware表示下游任务的培训中受益,如对象分类,当有限的标记数据是可用的。另一方面,密度预测任务,如语义分割,可能需要更有识别力的空间表示。作为补充boundary-aware对比目标,一个有前途的地方成对策略对医学图像分割的任务是至关重要的。使用这一观点,我们建议执行voxel-to-voxel成对蒸馏明确探索结构体素样品改善空间标签一致性之间的关系。

在我们的实现中,我们对来自编码器ET和ES的隐藏模式实施了这样的约束。 具体地说,设VT i∈RH W D×DE和VS i∈RH W D×DE分别是ES(XI)和ES(XI)的第一个三维平坦隐模式,而VI,J是VI的第J行。 成对蒸馏损失定义为:
L p d = − 1 M ∑ i = N + 1 N + M ∑ j = 1 H ′ W ′ D ′ log ⁡ e x p ( s ( v i , j s , v i , j t ) ) ∑ k e x p ( s ( v i , j s , v i , k t ) ) \mathcal{L}_{\mathrm{pd}}=-\frac{1}{M}\sum_{i=N+1}^{N+M}\sum_{j=1}^{H^\prime W^\prime D^\prime}\log \frac{exp(s(v_{i,j}^s,v_{i,j}^t))}{\sum_k exp(s(v_{i,j}^s,v_{i,k}^t))} Lpd=M1i=N+1N+Mj=1HWDlogkexp(s(vi,js,vi,kt))exp(s(vi,js,vi,jt))

s ( v 1 , v 2 ) = v 1 ⋅ v 2 ∣ ∣ v 1 ∣ ∣ ∣ ∣ v 2 ∣ ∣ s(\mathbf{v}_1,\mathbf{v}_2)=\frac{\mathbf{v}_1\cdot \mathbf{v}_2}{||\mathbf{v}_1||||\mathbf{v}_2||} s(v1,v2)=∣∣v1∣∣∣∣v2∣∣v1v2测量两个V之间夹角的余弦,作为它们的相似性。 再次注意,此丢失还涉及所有未标记的数据。

一致性损失 L c o n \mathcal{L}_{\mathrm{con}} Lcon

受最近工作[14],[33]的启发,一致性被设计为进一步鼓励训练稳定性和在未标记集合上的性能改进。 在我们的实现中,我们首先对未标记的输入体积Xi执行不同的扰动操作,即添加噪声ηi,然后将一致性损失定义为:
L c o n = 1 M ∑ i = N + 1 N + M L m s e ( F ( X i s + η i s ) , F t ( X i t + η i t ) ) \mathcal{L}_{\mathrm{con}}=\frac{1}{M}\sum_{i=N+1}^{N+M}\mathcal{L}_{\mathrm{mse}}(\mathcal{F}(\mathbf{X}_i^s+\eta_i^s),\mathcal{F}_t(\mathbf{X}_i^t+\eta_i^t)) Lcon=M1i=N+1N+MLmse(F(Xis+ηis),Ft(Xit+ηit))

所有损失

SIMCVD是一个将对比蒸馏与几何约束相结合的通用半透明框架。 在我们的实验中,我们用两个目标函数训练SIMCVD:一个有监督的目标函数和一个无监督的目标函数。 对于有标记的数据,我们在III-C节中定义了监督损失。 对于无标记数据,无监督训练目标包括边界感知对比损失、成对蒸馏损失和III-D节中的一致性损失。 总体损失函数为:
L = L s u p + λ L c o n t r a s t + β L p d + γ L c o n \mathcal{L}=\mathcal{L}_{\mathrm{sup}}+\lambda \mathcal{L}_{\mathrm{contrast}}+\beta\mathcal{L}_{\mathrm{pd}}+\gamma \mathcal{L}_{\mathrm{con}} L=Lsup+λLcontrast+βLpd+γLcon

4. 实验

4.1 数据集和预处理

我们在两个流行的基准数据集上评估了我们的方法:来自心房分割挑战者1的左心房(LA)MR数据集,以及NIH胰腺CT数据集[91]。 左心房数据集包括100幅经专家注释的三维钆增强MR成像扫描,各向同性分辨率为0.625×0.625×0.625mm3。 遵循[21]中的实验设置,我们使用80个扫描进行训练,20个扫描进行评估。 我们采用相同的预处理方法,裁剪心脏区域的所有扫描,并将强度归一化为零均值和单位方差。 所有的训练子体积通过随机裁剪增加到112×112×80mm3。 对于胰腺数据集,它包含82个增强腹部CT扫描。 遵循[24]中的实验设置,我们随机选择62个扫描用于训练,20个扫描用于评估。 在预处理中,首先将CT图像的强度截断到窗口[-125,275]Hu[92]中,然后将所有数据重新采样到1.0×1.0×1.0mm3的固定各向同性分辨率。 最后,我们裁剪所有以胰腺区域为中心的扫描,并将强度归一化为零均值和单位方差。 所有的训练子体积通过随机裁剪增加到96×96×96mm3。 在本研究中,我们比较了所有的方法在LA和胰腺数据集上的标记率为20%。 为了强调SIMCVD的有效性,我们进一步在LA数据集上以10%的标记率对所有方法进行了验证。

4.2 实现细节

在本研究中,所有评估的方法都在PyTorch中实现,并在一个批大小为4的NVIDIA 1080TI GPU上训练了6000次迭代。 对于数据增强,我们使用标准的数据增强技术(即,随机旋转、翻转和裁剪)。

我们将超参数α、λ、β、γ、τ分别设为0.1、0.5、0.1、0.1、0.5。

对于投影头,我们在AlphaDropout层中设置p=0.1,在AdaptiveAvgPool2D中设置输出大小为128×128。

我们使用动量为0.9、权值衰减为0.0005的SGD优化器对网络参数进行优化。

初始学习率设为0.01,每3000次迭代除以10。 对于均线更新,我们遵循[21]中的实验设置,其中均线衰减率α被设置为0.999。 我们使用时间相关的高斯预热函数ψcon(t)=exp-5(1-t/tmax)2-来增加参数,其中t和tmax分别表示当前和最大训练步长。 为公平起见,我们不采用任何后处理步骤。


在测试阶段,我们采用了四个指标来评价分割性能:骰子系数(DICE)、Jaccard指数(Jaccard)、95%Hausdorff距离(95HD)和平均对称面距离(ASD)。

继[21]、[24]、[93]之后,我们采用滑动窗口策略,对LA和胰腺分别采用18×18×4和16×16×16的步幅。

5. 结论

5.1 实验:LA

我们将SIMCVD与已发表的半监督分割方法的结果进行了比较,这些方法包括V-Net[7],MT[33],DAN[15],CPS[87],UA-MT[21],ICT[89],SASSNet[22],DCT[24]和Chaitanya等。 [25]在LA数据集上的两个标记比率设置(即10%和20%)。

在LA数据集上的定量结果如表I所示,SIMCVD在10%和20%的标记情况下显著提高了分割精度。 结果如图2所示。 具体而言,在20%的标记率设置下,我们提出的SIMCVD将先前的最佳平均结果从89.94%提高到90.85%,在骰子和jaccard方面从81.82%提高到83.80%,甚至达到了与完全监督基线相当的性能。 在10%的标记率下,SIMCVD进一步将现有的DICE检测结果从87.49%提高到89.03%。 Jaccard、ASD和95HD的收益也很大,分别达到80.34%、2.59和8.34。 这表明:(1)用对比目标提取体素样本可以得到更好的体素嵌入; (2)引入成对空间标记一致性可以通过访问更多的结构知识来提高性能; 和(3)利用几何约束(即SDM)能够帮助识别更精确的边界。 利用所有这些方面,我们可以观察到一致的性能增益。

image-20230214153914308

image-20230214153928593

5.2 实验:Pancreas

为了进一步评估SIMCVD的有效性,我们在胰腺CT数据集上比较了我们的模型。 胰腺CT数据集的实验结果总结在表II中。 我们观察到,我们的模型一直优于所有以前的方法,在骰子上实现了高达6.72%的绝对改进。 如图1所示。 2和3中,我们的方法能够预测高质量的目标分割,考虑到在这种情况下改进是困难的。 这说明:(1)综合考虑边界感知对比和成对蒸馏的必要性; (2)全局形状信息的有效性。 与以前的强模型相比,我们的方法在所有数据集上都有很大的改进,证明了它的有效性。

image-20230214154131685

6. 消融研究

在本节中,我们进行了广泛的研究,以更好地理解SIMCVD。 我们从两个方面证明了SIMCVD的内部工作:(1)边界感知对比蒸馏(VI-A节)和(2)投影头(VI-B节)。 在这些研究中,我们在10%的标记率(8个标记和72个未标记)的LA数据集上评估了我们提出的方法。

6.1 边界感知对比蒸馏分析

6.2 投影头分析

为了进一步了解我们的投影头的不同方面如何有助于卓越的模型性能,我们进行了广泛的实验,并在下面讨论我们的发现。

如何解读dropout

实验结果表明,SIMCVD是一种有效的方法。 在下面,我们旨在回答两个问题。 首先,如何解读SIMCVD的dropout培训策略? 我们是否可以将dropout视为数据增加的一种形式? 第二,它是否能够在实践中利用额外的信息线索?

首先,我们检验在训练过程中消除dropout是否可以获得可比的性能。

表IV显示了我们在LA上的辍学消融结果。 如表IV所示,我们观察到使用Dropout在LA数据集上获得了更好的结果。 与设置p=0.1相比,我们发现“无dropout”(P=0)会导致DICE、JACCARD、ASD和95HD的性能显著下降,绝对差分别为-1.34%、-2.11%、-1.71、-2.69。

而在p=0.5的情况下,也会对网络性能产生明显的影响。 另一方面,我们观察到其他P设置与“无dropout”相比略有改善,但最终表现低于SIMCVD。

这清楚地表明了我们的退出策略的优越性,以学习更好的表示,关于不同对的增强图像。 我们推测,添加dropout可以解释为一种最小形式的数据增强,其中正对取相同图像的两个视图,它们的表示在dropout掩模中有明显的差异。

image-20230214154439933

增强技术的效果

为了进一步验证我们的假设,我们在表V中比较了常见的数据增强技术(即局部洗牌像素、非线性变换、内绘、外绘)。如图所示,定量结果揭示了不同数据增强的有趣行为:增加更多的数据增强并没有进一步促进良好的模型性能。 我们注意到,有些令人惊讶的是,它损害了最终的预测性能,没有一个性能超过基本的辍学掩码。 这表明,通过包括这些数据增强技术,有可能在训练过程中引入额外的噪声,从而导致表示崩溃。

池大小的影响

池大小的影响在表III中,我们展示了使用自适应平均池代替自适应最大池对网络的改进。 我们在表IV中研究了不同池大小的影响。 从经验上看,我们观察到使用更大的池大小明显地一致地提高了性能。 然而,我们发现将池大小增加到256不能进一步改善结果。 在我们的实现中,我们将池大小设置为128

image-20230214154658904

7. 总结

在这项工作中,我们提出了一个简单的对比蒸馏学习框架SIMCVD,它在医学分割任务中很大程度上推进了最先进的体素表示学习。 具体地说,我们提出了一种无监督训练策略,它获取输入体积的两个视图,并在一个对比目标中预测它们的目标边界的符号距离图,只有两个不同的dropout掩码。 我们进一步进行了广泛的分析,以了解我们的方法的最先进的性能,并证明了学习不同的边界感知表示和使用Dropout作为最小数据增强技术的重要性。 我们还提出了通过提取成对相似性来进行结构蒸馏,从而实现了良好的性能改进。 我们的实验结果表明,SIMCVD在两个基准上,在极少注释的情况下,获得了新的最先进的结果。

我们相信,我们的无监督训练框架提供了一个新的视角,在数据增强与未标记的三维医学数据。 我们还计划扩展我们的方法来解决多类医学图像分割任务。

猜你喜欢

转载自blog.csdn.net/wujing1_1/article/details/129028748