【计算机视觉 | 图像分割】arxiv 计算机视觉关于图像分割的学术速递(9 月 18 日论文合集)

一、分割|语义相关(9篇)

1.1 3D Arterial Segmentation via Single 2D Projections and Depth Supervision in Contrast-Enhanced CT Images

基于单2D投影和深度监控的增强CT图像三维动脉分割

https://arxiv.org/abs/2309.08481

在这里插入图片描述
血管的自动分割是许多血管疾病的定量诊断和治疗的重要步骤。3D血管分割在现有工作中正在积极研究,主要是在深度学习方法中。然而,训练3D深度网络需要来自专家的大量手动3D注释,这是费力获得的。对于3D血管分割而言尤其如此,因为血管是稀疏的,但在许多切片上分散并且在2D切片中可视化时断开。在这项工作中,我们提出了一种新的方法来分割3D胰周动脉单独从一个注释的2D投影,每个训练图像与深度监督。我们进行了广泛的实验上的胰腺周围动脉的3D对比度增强CT图像的分割,并证明我们如何捕捉丰富的深度信息,从2D投影。我们证明,通过注释一个单一的,随机选择的投影为每个训练样本,我们获得了相当的性能注释多个2D投影,从而减少注释工作。此外,通过使用深度信息将2D标签映射到3D空间并将其纳入训练中,我们几乎缩小了3D监督和2D监督之间的性能差距。我们的代码可从以下网址获得:https://github.com/alinafdima/3Dseg-mip-depth。

1.2 TreeLearn: A Comprehensive Deep Learning Method for Segmenting Individual Trees from Forest Point Clouds

TreeLearn:一种从森林点云中分割单株树木的综合深度学习方法

https://arxiv.org/abs/2309.08471

在这里插入图片描述
激光扫描的森林点云使提取森林管理有价值的信息成为可能。为了考虑单个树,需要将森林点云分割成各个树点云。现有的分割方法通常基于手工算法,例如识别树干并从中生长树木,并且在具有重叠树冠的茂密森林中面临困难。在这项研究中,我们提出了\mbox{TreeLearn},这是一种基于深度学习的方法,用于森林点云的语义和实例分割。与以前的方法不同,TreeLearn以数据驱动的方式在已经分割的点云上进行训练,使其更少地依赖预定义的特征和算法。此外,我们引入了一个新的手动分割基准森林数据集,包含156个完整的树,和79个部分树,已经干净地分割的手。这使得实例分割性能的评估超出了仅仅评估单个树的检测。我们在6665棵树的森林点云上训练TreeLearn,并使用Lidar 360软件进行标记。对基准数据集的评估表明,TreeLearn的表现与用于生成其训练数据的算法一样好或更好。此外,该方法的性能可以大大提高,通过微调干净标记的基准数据集。TreeLearn代码可从https://github.com/ecker-lab/TreeLearn获得。数据和训练模型可以在https://doi.org/10.25625/VPMPID找到。

1.3 X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth Estimation with Cross-Task Distillation and Boundary Correction

X-PDNet:结合跨任务提取和边界校正的精确关节平面实例分割和单目深度估计

https://arxiv.org/abs/2309.08424

在这里插入图片描述
从单个RGB图像中分割平面区域是复杂场景感知中的一项特别重要的任务。为了利用图像中的视觉和几何属性,最近的方法通常将问题制定为通过特征融合机制和几何约束损失的平面实例和密集深度的联合估计。尽管有希望的结果,这些方法不考虑跨任务的功能蒸馏和执行差的边界区域。为了克服这些限制,我们提出了X-PDNet,一个多任务学习的框架,平面实例分割和深度估计,在以下两个方面的改进。首先,我们构建了跨任务蒸馏设计,促进双任务之间的早期信息共享特定的任务改进。其次,我们强调了目前使用地面实况边界开发边界回归损失的局限性,并提出了一种新的方法,利用深度信息来支持精确的边界区域分割。最后,我们手动注释斯坦福大学的2D-3D语义数据集的3000多张图像,并可用于评估平面实例分割。通过实验,我们提出的方法证明了优势,优于基线的定量结果在ScanNet和斯坦福2D-3D-S数据集上有很大的改善幅度,证明了我们的建议的有效性。

1.4 A Ground Segmentation Method Based on Point Cloud Map for Unstructured Roads

一种基于点云地图的非结构化道路地面分割方法

https://arxiv.org/abs/2309.08164

在这里插入图片描述
地面分割作为无人机智能感知的基础任务,为目标探测任务提供了重要支撑。以露天矿为代表的非结构化道路场景边界线不规则、路面不平,导致现有地面分割方法存在分割误差。针对这一问题,提出了一种基于点云图的地面分割方法,该方法涉及三个部分:感兴趣区域提取、点云配准和背景减除。首先,建立边界语义关联,获得非结构化道路的感兴趣区域。其次,利用语义信息建立点云地图与感兴趣区域实时点云之间的位置关联。然后根据位置关联建立基于高斯分布的背景模型,并采用背景差分法对实时点云中的地面进行分割。实验结果表明,地面点的正确分割率为99.95%,运行时间为26 ms。与现有地面分割算法Patchwork++相比,地面点分割的平均精度提高了7.43%,运行时间增加了17 ms。此外,该方法实际应用于非结构化的道路场景所代表的露天矿。

1.5 Uncertainty-Aware Multi-View Visual Semantic Embedding

不确定性感知的多视点视觉语义嵌入

https://arxiv.org/abs/2309.08154

在这里插入图片描述
图像-文本检索的关键挑战是有效地利用语义信息来度量视觉和语言数据之间的相似性。然而,使用实例级二进制标签,其中每个图像与单个文本配对,无法捕获不同语义单元之间的多个对应关系,导致多模态语义理解的不确定性。虽然最近的研究已经通过更复杂的模型结构或预训练技术捕获了细粒度的信息,但很少有研究直接建模对应的不确定性以充分利用二进制标签。为了解决这个问题,我们提出了一个不确定性感知的多视图视觉语义嵌入(UAMVSE)框架,该框架将整体图像-文本匹配分解为多个视图-文本匹配。我们的框架引入了一个不确定性感知损失函数(UALoss),通过自适应地建模每个视图文本对应的不确定性来计算每个视图文本损失的权重。不同的权重引导模型关注不同的语义信息,增强了模型对图像和文本对应关系的理解能力。我们还设计了一个优化的图像-文本匹配策略,通过规范化的相似性矩阵,以提高模型的性能。在Flicker 30 k和MS-COCO数据集上的实验结果表明,UAMVSE优于最先进的模型。

1.6 Prompting Segmentation with Sound is Generalizable Audio-Visual Source Localizer

用声音提示分割是可推广的视听信源定位器

https://arxiv.org/abs/2309.07929

在这里插入图片描述
由于从未同时看到一个物体并听到它的声音,模型还能从输入音频中准确地定位它的视觉位置吗?在这项工作中,我们专注于视听定位和分割任务,但在苛刻的zero-shot和Few-Shot的情况下。为了实现这一目标,不同于现有的方法,主要采用编码器-融合-解码器范式来解码融合的视听特征的定位信息,我们引入了编码器-提示-解码器范式,旨在更好地适应数据稀缺性和变化的数据分布困境的帮助下,从预先训练的模型丰富的知识。具体来说,我们首先提出了构建语义感知音频提示(SAP),以帮助视觉基础模型专注于发声对象,同时,视觉和音频模态之间的语义差距也鼓励缩小。然后,我们开发了一个相关适配器(ColA),以保持最小的训练努力,以及保持足够的知识的视觉基础模型。通过装备这些手段,大量的实验表明,这种新的范式优于其他基于融合的方法在看不见的类和跨数据集设置。希望本文的工作能够进一步推动音视频定位与分割在实际应用场景中的推广研究。

1.7 Segment Anything Model for Brain Tumor Segmentation

用于脑肿瘤分割的任意分割模型

https://arxiv.org/abs/2309.08434

在这里插入图片描述
胶质瘤是一种常见的脑肿瘤,对个体造成重大的健康风险。脑肿瘤的准确分割对于临床诊断和治疗至关重要。Meta AI发布的Segment Anything Model(SAM)是图像分割的基础模型,具有出色的零样本泛化能力。因此,将SAM应用于脑肿瘤分割的任务是有趣的。在这项研究中,我们评估了SAM对脑肿瘤分割的性能,发现在没有任何模型微调的情况下,SAM和当前最先进的(SOTA)模型之间仍然存在差距。

1.8 3D SA-UNet: 3D Spatial Attention UNet with 3D ASPP for White Matter Hyperintensities Segmentation

3D SA-UNET:基于3D ASPP的3D空间注意的脑白质高信号分割

https://arxiv.org/abs/2309.08402

在这里插入图片描述
白质高信号(WMH)是与诸如痴呆和中风的各种疾病相关的成像特征。利用计算机技术准确分割WMH对于早期疾病诊断至关重要。然而,由于图像中具有低对比度和高不连续性的小病变,该任务仍然具有挑战性,其中包含有限的上下文和空间信息。为了解决这一挑战,我们提出了一种称为3D空间注意力U-Net(3D SA-UNet)的深度学习模型,用于仅使用流体衰减反转恢复(FLAIR)扫描进行自动WMH分割。3D SA-UNet引入了3D空间注意力模块,该模块突出显示重要的病变特征,例如WMH,同时抑制不重要的区域。此外,为了捕获不同尺度的功能,我们扩展了Atrous空间金字塔池(ASPP)模块到3D版本,提高了网络的分割性能。我们评估我们的方法公开可用的数据集,并证明了三维空间注意力模块和三维ASPP WMH分割的有效性。通过实验结果,已经证明,我们提出的3D SA-UNet模型与其他最先进的3D卷积神经网络相比,具有更高的准确性。

1.9 Efficient Polyp Segmentation Via Integrity Learning

基于完整性学习的高效息肉分割

https://arxiv.org/abs/2309.08234

在这里插入图片描述
结肠镜检查中准确的息肉轮廓对于辅助诊断、指导干预和治疗至关重要。然而,目前的深度学习方法由于完整性缺陷而有所欠缺,这通常表现为缺失的病变部分。本文从宏观和微观两个层面引入完整性的概念,以缓解完整性不足。具体而言,该模型应在宏观层面区分整个息肉,并在微观层面识别息肉内的所有成分。我们的完整性捕获息肉分割(IC-PolypSeg)网络利用轻量级骨干和3个关键组件来改善完整性:1)逐像素特征再分布(PFR)模块在最终语义丰富的编码器特征中捕获跨通道的全局空间相关性。2)跨阶段的像素级特征再分配(CPFR)模块动态融合高层语义和低层空间特征,以捕获上下文信息。3)粗到精校准模块结合了PFR和CPFR模块,实现了精确的边界检测。在5个公共数据集上的大量实验表明,所提出的IC-PolypSeg在更高的精度和显着提高的计算效率方面优于8个最先进的方法,具有更低的计算消耗。IC-PolypSeg-EF 0使用的参数比PraNet少300倍,同时实现了235 FPS的实时处理速度。重要的是,IC-PolypSeg降低了五个数据集的假阴性率,满足临床要求。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132981837