【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(9 月 20 日论文合集)

一、分割|语义相关(11篇)

1.1 Few-Shot Panoptic Segmentation With Foundation Models

基于基础模型的Few-Shot全景图像分割

https://arxiv.org/abs/2309.10726

在这里插入图片描述
用于全景分割的当前最先进的方法需要大量的注释的训练数据,获得这些注释的训练数据既费力又昂贵,这对其广泛采用构成了重大挑战。同时,视觉表征学习的最新突破引发了范式转变,导致可以用完全未标记的图像训练的大型基础模型的出现。在这项工作中,我们建议利用这样的任务不可知的图像功能,使Few-Shot panoptic分割,提出分割Panoptic信息与近0标签(SPINO)。详细地说,我们的方法结合了DINOv2骨干与轻量级网络头的语义分割和边界估计。我们表明,我们的方法,虽然只有10个注释的图像进行训练,预测高质量的伪标签,可以与任何现有的全景分割方法。值得注意的是,我们证明了SPINO与完全监督的基线相比取得了有竞争力的结果,同时使用了不到0.3%的地面真实标签,为利用基础模型学习复杂的视觉识别任务铺平了道路。为了说明它的普遍适用性,我们进一步部署SPINO在现实世界的机器人视觉系统的室外和室内环境。为了促进未来的研究,我们在http://spino.cs.uni-freiburg.de上公开了代码和训练模型。

1.2 Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation

基于跨模式和跨域的无标签三维分割知识传递

https://arxiv.org/abs/2309.10649

在这里插入图片描述
当前最先进的基于点云的感知方法通常依赖于大规模标记数据,这需要昂贵的手动注释。一个自然的选择是探索3D感知任务的无监督方法。然而,这样的方法通常面临实质性的性能下降困难。幸运的是,我们发现存在大量基于图像的数据集,并且可以提出替代方案,即,将2D图像中的知识转移到3D点云。具体来说,我们提出了一种新的方法,具有挑战性的跨模态和跨域的适应任务,充分探索图像和点云之间的关系,并设计有效的特征对齐策略。在没有任何3D标签的情况下,与现有的无监督和弱监督基线相比,我们的方法通过使用KITTI360和GTA5的知识,在SemanticKITTI上实现了最先进的3D点云语义分割性能。

1.3 Edge-aware Feature Aggregation Network for Polyp Segmentation

用于息肉分割的边缘感知特征聚合网络

https://arxiv.org/abs/2309.10523

在这里插入图片描述
在临床实践中,准确分割息肉对于结直肠癌(CRC)的早期诊断和预防至关重要。然而,由于尺度变化和模糊的息肉边界,它仍然是一个具有挑战性的任务,以实现令人满意的分割性能与不同的尺度和形状。在这项研究中,我们提出了一种新的边缘感知特征聚合网络(EFA-Net)的息肉分割,它可以充分利用跨级别和多尺度的功能,以提高息肉分割的性能。具体来说,我们首先提出了一个边缘感知的指导模块(EGM)相结合的低级别的功能与高级别的功能,学习边缘增强功能,这是纳入到每个解码器单元使用逐层的策略。此外,尺度感知卷积模块(SCM)提出了学习尺度感知功能,通过使用不同比例的膨胀卷积,以有效地处理尺度变化。此外,跨级融合模块(CFM)提出了有效地整合跨级功能,它可以利用本地和全局上下文信息。最后,CFM的输出自适应加权使用学习到的边缘感知功能,然后用于产生多个侧出分割图。在五个广泛采用的结肠镜数据集上的实验结果表明,我们的EFA-Net在泛化和有效性方面优于最先进的息肉分割方法。

1.4 Spatial-Assistant Encoder-Decoder Network for Real Time Semantic Segmentation

用于实时语义分割的空间辅助编解码网

https://arxiv.org/abs/2309.10519

在这里插入图片描述
语义分割是自动驾驶汽车理解其周围环境的必要技术。目前,实时语义分割网络通常采用编码器-解码器架构或双路径架构。一般来说,编码器-解码器模型往往更快,而双通道模型表现出更高的准确性。为了利用这两个优势,我们提出了空间辅助编码器解码器网络(SANet)融合这两种架构。在整体架构中,我们坚持编码器-解码器设计,同时保持编码器中间部分的特征图,并利用atrous卷积分支进行相同分辨率的特征提取。在编码器的末尾,我们集成了非对称池化金字塔池化模块(APPPM)来优化特征图的语义提取。此模块包含以多种分辨率提取特征的非对称池化层。在解码器中,我们提出了一个混合的注意力模块,SAD,集成了水平和垂直的注意力,以便于各种分支的结合。为了确定我们的方法的有效性,我们的SANet模型在实时CamVid和cityscape数据集上取得了有竞争力的结果。通过使用单个2080 Ti GPU,SANet在Cityscape测试数据集上以65.1 FPS的速度实现了78.4%的mIOU,在CamVid测试数据集上以147 FPS的速度实现了78.8%的mIOU。SANet的培训代码和模型可在https://github.com/CuZaoo/SANet-main上获得

1.5 Uncertainty Estimation in Instance Segmentation with Star-convex Shapes

星形凸形实例分割中的不确定性估计

https://arxiv.org/abs/2309.10513

在这里插入图片描述
通过基于深度神经网络的算法,实例分割已经见证了有希望的进步。然而,这些模型往往表现出不正确的预测与不必要的置信水平。因此,评估预测的不确定性成为知情决策的关键。现有的方法主要集中在量化分类或回归任务中的不确定性,缺乏对实例分割的重视。我们的研究解决了估计与星凸形状的实例的位置相关的空间确定性的挑战。两种不同的聚类方法进行评估,计算空间和分数的确定性,每个实例采用蒙特卡罗丢弃或深度集成技术的样本。我们的研究表明,结合空间和分数确定性得分产生改进的校准估计,超过个人确定性得分。值得注意的是,我们的实验结果表明,深度集成技术以及我们的新颖的径向聚类方法被证明是一种有效的策略。我们的研究结果强调了评估模型可靠性和决策的估计确定性的校准的意义。

1.6 Single-Image based unsupervised joint segmentation and denoising

基于单幅图像的无监督联合分割与去噪

https://arxiv.org/abs/2309.10511

在这里插入图片描述
在这项工作中,我们开发了一种无监督的方法,用于单个图像的联合分割和去噪。为此,我们将变分分割方法的优势与基于单图像的自监督深度学习方法的强大功能相结合。我们的方法的一个主要优势在于,与需要大量标记样本的数据驱动方法相比,我们的模型可以将图像分割成多个有意义的区域,而无需任何训练数据库。此外,我们引入了一种新的能量功能,其中去噪和分割耦合的方式,这两个任务受益于彼此。现有的基于单图像的变分分割方法的局限性,这是不能够处理高噪声或一般的纹理,通过这种特定的组合与自监督图像去噪来解决。我们提出了一个统一的优化策略,并表明,特别是对于非常嘈杂的图像,在显微镜,我们提出的联合方法优于其顺序对应以及替代方法,纯粹专注于去噪或分割。另一个比较是与为同一应用程序设计的监督式深度学习方法进行的,突出了我们方法的良好性能。

1.7 RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic Segmentation

Recall+:语义分割中持续学习的对抗性网络回放

https://arxiv.org/abs/2309.10479

在这里插入图片描述
灾难性地遗忘先前的知识是持续学习中的一个关键问题,通常通过各种正则化策略来处理。然而,现有的方法尤其在执行若干递增步骤时难以实现。在本文中,我们扩展了我们以前的方法(RECALL)和解决遗忘利用无监督的网络爬行数据检索旧类的在线数据库的例子。与不对网络数据进行任何评估的原始方法不同,在这里,我们引入了两种基于对抗学习和自适应阈值的新方法,仅从网络数据中选择与不再可用的训练数据的统计数据非常相似的样本。此外,我们改进了伪标记计划,以实现更准确的标记网络数据,也考虑到类正在学习的当前步骤。实验结果表明,这种增强的方法取得了显着的效果,特别是当多个增量学习步骤进行。

1.8 Fully automated landmarking and facial segmentation on 3D photographs

3D照片上的全自动标记和人脸分割

https://arxiv.org/abs/2309.10472

在这里插入图片描述
三维面部立体摄影测量提供了颅面软组织的详细表示,而不使用电离辐射。虽然标记的手动注释用作当前用于头影测量分析的金标准,但是其是耗时的过程并且易于人为错误。本研究的目的是使用基于深度学习的方法开发和评估自动头影测量注释方法。10个地标手动注释2897三维面部照片由一个单一的观察者。自动地标工作流程涉及两个连续的DiffusionNet模型和用于面部分割的附加算法。将数据集随机分为训练数据集和测试数据集。训练数据集用于训练深度学习网络,而测试数据集用于评估自动化工作流程的性能。的工作流程的精度进行了评估,通过计算的欧氏距离之间的自动化和手动地标,并比较观察员内和观察员间的变异性的手动注释和半自动地标方法。在所有测试用例中,98.6%的工作流成功。基于深度学习的地标标注方法实现了精确一致的地标标注。平均精密度为1.69(+/-1.15)mm,与手动注释的观察者间变异性(1.31 +/-0.91 mm)相当。69%的自动和手动标志之间的欧氏距离在2 mm以内。3D照片上的自动地标注释实现了基于DiffusionNet的方法。所提出的方法允许对大数据集进行定量分析,并可用于诊断、随访和虚拟手术计划。

1.9 UPL-SFDA: Uncertainty-aware Pseudo Label Guided Source-Free Domain Adaptation for Medical Image Segmentation

UPL-SFDA:不确定性感知的伪标签引导无源域自适应医学图像分割

https://arxiv.org/abs/2309.10244

在这里插入图片描述
域自适应(DA)对于基于深度学习的医学图像分割模型处理来自新目标域的测试图像非常重要。由于在新的中心部署训练模型时,源域数据通常不可用,因此无源域自适应(SFDA)对目标域的数据和注释高效自适应具有吸引力。然而,现有的SFDA方法具有有限的性能,由于缺乏足够的监督与源域图像不可用和目标域图像未标记。我们提出了一种新的不确定性感知伪标签引导(UPL)的SFDA医学图像分割方法。具体来说,我们提出了目标域增长(TDG),通过多次重复预训练模型的预测头,并进行扰动,来增强目标域中预测的多样性。在这些重复的头部中的不同预测被用来获得未标记的目标域图像的伪标签和它们的不确定性,以识别可靠的伪标签。我们还提出了一个两次前向通过监督(TFS)的策略,使用可靠的伪标签在一个前向通过监督预测在下一个前向通过。通过基于平均预测的熵最小化项,鼓励在不同的预测头中的置信和一致的结果,进一步正则化自适应。使用多部位心脏MRI分割数据集、跨模态胎儿脑分割数据集和3D胎儿组织分割数据集对UPL-SFDA进行了验证。与基线相比,这三项任务的平均Dice分别提高了5.54、5.01和6.89个百分点,并优于几种最先进的SFDA方法。

1.10 Multi-level feature fusion network combining attention mechanisms for polyp segmentation

结合注意力机制的多级特征融合网络用于息肉分割

https://arxiv.org/abs/2309.10219

在这里插入图片描述
临床上,自动化息肉分割技术有可能显著提高医学诊断的效率和准确性,从而降低患者患结直肠癌的风险。不幸的是,现有的方法遭受两个显著的弱点,可以影响分割的准确性。首先,由编码器提取的特征没有被充分地过滤和利用。其次,没有注意特征融合所引起的语义冲突和信息冗余。为了克服这些限制,我们提出了一种新的息肉分割方法,命名为MLFF-Net,它利用多级特征融合和注意机制。具体而言,MLFF-Net包括三个模块:多尺度注意力模块(MAM)、高级特征增强模块(HFEM)和全局注意力模块(GAM)。其中,MAM用于从编码器的浅层输出中提取多尺度信息和息肉细节。在HFEM中,编码器的深度特征通过聚合彼此互补。同时,注意机制重新分配聚合特征的权重,削弱冲突的冗余部分,突出对任务有用的信息。GAM结合来自编码器和解码器特征的特征,以及计算全局依赖性以防止感受野局部性。在5个公共数据集上的实验结果表明,该方法不仅可以分割出多种类型的息肉,而且在准确率和泛化能力上都优于现有的方法。

1.11 An Empirical Study of Attention Networks for Semantic Segmentation

注意力网络用于语义切分的实证研究

https://arxiv.org/abs/2309.10217

在这里插入图片描述
语义分割是计算机视觉中的一个重要问题。近年来,端到端卷积神经网络是语义分割的一种常用解决方案,它比传统方法准确得多。最近,基于注意力的解码器在各种数据集上都达到了最先进的(SOTA)性能。但这些网络往往与以往的SOTA网络的mIoU进行比较,以证明其优越性,而忽略了它们的特点,而没有考虑各种类别的计算复杂度和精度,这对于工程应用是必不可少的。此外,不同网络之间的FLOP和内存分析方法并不一致,这使得比较难以利用。此外,各种方法利用注意力进行语义切分,但这些方法的结论是缺乏的。本文首先进行了实验,分析了它们的计算复杂度,并比较了它们的性能。然后总结了适合这些网络的场景,并归纳了构建注意力网络时应注意的关键点。最后指出了注意力网络的发展方向。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/133093347