【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 30 日论文合集)

一、检测相关(10篇)

1.1 Pseudo-Boolean Polynomials Approach To Edge Detection And Image Segmentation

伪布尔多项式边缘检测与图像分割方法

https://arxiv.org/abs/2308.15453

我们介绍了一种确定性的方法,边缘检测和图像分割制定伪布尔多项式的图像补丁。该方法通过应用二进制分类的斑点和边缘区域中的图像中的基于伪布尔多项式的程度计算的补丁从所提供的图像提取。我们测试我们的方法简单的图像包含原始形状的恒定和对比的颜色和建立的可行性之前,应用它的复杂的情况下,如航空景观图像。所提出的方法是基于开发的减少,多项式度,和等价性质的惩罚为基础的伪布尔多项式。

1.2 On the Robustness of Object Detection Models in Aerial Images

航空图像目标检测模型的稳健性研究

https://arxiv.org/abs/2308.15378

对象检测模型的鲁棒性是应用于现实世界场景时的主要关注点。然而,大多数对象检测模型的性能下降时,应用到受到腐败的图像,因为它们通常是在干净的数据集上训练和评估。增强对象检测模型的鲁棒性是至关重要的,特别是对于那些为航空图像设计的,其特点是复杂的背景,在尺度和对象的方向上的实质变化。本文讨论了在航空图像中的目标检测模型的鲁棒性评估的挑战,特别强调的情况下,图像受云的影响。在这项研究中,我们介绍了两个新的基准的基础上DOTA-v1.0。第一个基准包括19个普遍的腐败,而第二个重点是云损坏的图像-一种在自然图片中不常见但在航空摄影中常见的现象。我们系统地评估了主流目标检测模型的鲁棒性,并进行了大量的消融实验。通过我们的调查,我们发现,增强的模型架构,更大的网络,精心制作的模块,明智的数据增强策略,共同提高了空中物体检测模型的鲁棒性。我们提出的基准和我们全面的实验分析,可以促进研究在航空图像中的鲁棒目标检测。代码和数据集可从以下网址获得:(https://github.com/hehaodong530/DOTA-C)

1.3 AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models

AnomalyGPT:使用大型视觉语言模型检测工业异常

https://arxiv.org/abs/2308.15366

大型视觉语言模型(LVLM),如MiniGPT-4和LLaVA已经证明了理解图像的能力,并在各种视觉任务中取得了显着的表现。尽管它们由于大量的训练数据集而具有很强的识别常见对象的能力,但它们缺乏特定的领域知识,并且对对象内的局部细节的理解较弱,这阻碍了它们在工业异常检测(IAD)任务中的有效性。另一方面,大多数现有的IAD方法只提供异常分数,并且需要手动设置阈值来区分正常和异常样本,这限制了它们的实际实施。在本文中,我们探讨了利用LVLM来解决IAD问题,并提出了AnomalyGPT,一种新的IAD方法的基础上LVLM。我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还采用了图像解码器,以提供细粒度的语义和设计一个提示学习微调LVLM使用提示嵌入。我们的AnomalyGPT消除了手动阈值调整的需要,从而直接评估异常的存在和位置。此外,AnomalyGPT支持多轮对话,并展示出令人印象深刻的Few-Shot上下文学习能力。在只有一次正常拍摄的情况下,AnomalyGPT在MVTec-AD数据集上实现了最先进的性能,准确率为86.1%,图像级AUC为94.1%,像素级AUC为95.3%。代码可在https://github.com/CASIA-IVA-Lab/AnomalyGPT上获得。

1.4 Ego-Motion Estimation and Dynamic Motion Separation from 3D Point Clouds for Accumulating Data and Improving 3D Object Detection

用于积累数据和改进三维目标检测的自运动估计和三维点云动态运动分离

https://arxiv.org/abs/2308.15357

新型3+1D高分辨率雷达传感器在汽车领域的3D物体检测中越来越重要,因为其相对经济实惠,并且与传统的低分辨率雷达传感器相比,检测性能更好。与激光雷达传感器相比,高分辨率雷达传感器的一个限制是生成的点云的稀疏性。这种稀疏性可以通过积累后续时间步长的雷达点云来部分克服。这篇文章分析了在代尔夫特视图数据集上积累雷达点云的局限性。通过采用不同的自我运动估计方法,数据集的内在约束,和可能的解决方案进行了分析。此外,一个基于学习的实例运动估计方法部署调查的动态运动的累积点云的对象检测的影响。实验证明,通过应用自我运动估计和动态运动校正方法,提高了目标检测性能。

1.5 Detect, Augment, Compose, and Adapt: Four Steps for Unsupervised Domain Adaptation in Object Detection

检测、增强、合成和适配:目标检测中无监督领域自适应的四个步骤

https://arxiv.org/abs/2308.15353

无监督域自适应(UDA)在对象检测中起着至关重要的作用时,适应源训练的检测器到目标域没有注释的数据。在本文中,我们提出了一种新颖有效的四步UDA方法,该方法利用自我监督并同时训练源数据和目标数据。我们利用自我监督学习来缓解目标域中缺乏地面真相的问题。我们的方法包括以下步骤:(1)识别每个目标图像中具有最高置信度检测集的区域,其用作我们的伪标签;(2)裁剪所识别的区域并生成其增强版本的集合;(3)将这些后者组合成合成图像;(4)使用合成图像使网络适应目标域。通过在跨摄像机,跨天气和合成到真实场景下的广泛实验,我们的方法实现了最先进的性能,在平均平均精度(mAP)方面比最近的竞争对手提高了2%以上。该代码可在https://github.com/MohamedTEV/DACA上获得。

1.6 MSFlow: Multi-Scale Flow-based Framework for Unsupervised Anomaly Detection

MSFlow:基于多尺度流的无监督异常检测框架

https://arxiv.org/abs/2308.15300

无监督异常检测(UAD)吸引了大量的研究兴趣,并推动了广泛的应用,其中只有异常无样本可用于训练。一些UAD应用旨在在没有任何异常信息的情况下进一步定位异常区域。 虽然异常样本和注释的情况下恶化的UAD性能,一个不起眼但强大的统计模型,归一化流,是适当的异常检测和定位在一个无监督的方式。基于流的概率模型,仅在无异常数据上训练,可以通过分配比正常数据低得多的可能性来有效地区分不可预测的异常。 然而,不可预测的异常的大小变化引入了另一个不便的基于流的方法的高精度异常检测和定位。为了推广异常大小的变化,我们提出了一个新的多尺度流为基础的框架称为MSFlow组成的不对称并行流,然后由融合流交换多尺度的看法。此外,根据图像异常检测和像素异常定位之间的差异,采用不同的多尺度聚合策略。建议的MSFlow评估三个异常检测数据集,显着优于现有的方法。值得注意的是,在具有挑战性的MVTec AD基准测试中,我们的MSFlow达到了最先进的水平,检测AUORC评分高达99.7%,定位AUCROC评分为98.8%,PRO评分为97.1%。可再现代码可在https://github.com/cool-xuan/msflow获得。

1.7 ADFA: Attention-augmented Differentiable top-k Feature Adaptation for Unsupervised Medical Anomaly Detection

ADFA:注意力增强的可区分top-k特征自适应无监督医学异常检测

https://arxiv.org/abs/2308.15280

注释数据的稀缺性,特别是对于罕见疾病,限制了训练数据的可变性和可检测病变的范围,对医学成像中的监督异常检测提出了重大挑战。为了解决这个问题,我们提出了一种新的无监督医学图像异常检测方法:注意增强可微分top-k特征自适应(ADFA)。该方法利用在ImageNet上预训练的Wide-ResNet 50 -2(WR 50)网络来提取初始特征表示。为了降低通道维数,同时保留相关的通道信息,我们采用了注意增强补丁描述符提取的功能。然后,我们应用可微分的top-k特征自适应来训练补丁描述符,将提取的特征表示映射到新的向量空间,从而能够有效地检测异常。实验表明,ADFA在多个具有挑战性的医学图像数据集上优于最先进的(SOTA)方法,证实了其在医学异常检测中的有效性。

1.8 A Comprehensive Augmentation Framework for Anomaly Detection

一种综合增强的异常检测框架

https://arxiv.org/abs/2308.15068

数据增强方法通常被集成到异常检测模型的训练中。以前的方法主要集中在复制真实世界的异常或增强多样性,没有考虑到异常的标准在不同的类之间的变化,可能会导致有偏见的training distribution.本文分析了模拟异常的关键特征,有助于重建网络的训练,并将它们浓缩成几种方法,从而创建一个全面的框架,通过选择性地利用适当的组合.此外,我们将这个框架与基于重建的方法相结合,同时提出了一个分裂的训练策略,减轻了过拟合的问题,同时避免引入干扰重建过程. MVTec异常检测数据集上进行的评估表明,我们的方法优于以前的国家的最先进的方法,特别是在对象classs.To评估的泛化性,我们生成一个模拟数据集,包括具有不同特征的异常,因为原始的测试样本只包括特定类型的异常,并可能导致有偏见的评价。实验结果表明,我们的方法表现出良好的潜力,有效地推广到现实世界中遇到的各种不可预见的异常情况。

1.9 Few-Shot Object Detection via Synthetic Features with Optimal Transport

基于最优传输综合特征的Few-Shot目标检测

https://arxiv.org/abs/2308.15005

Few-Shot目标检测的目的是利用有限的训练样本同时对图像中的目标进行定位和分类。然而,大多数现有的Few-Shot目标检测方法集中在提取缺乏多样性的新类的少数样本的特征。因此,它们可能不足以捕获数据分布。为了解决这一局限性,在本文中,我们提出了一种新的方法,在该方法中,我们训练一个生成器生成新类的合成数据。然而,由于缺乏新颖数据,直接在新颖类上训练生成器是无效的。为了克服这个问题,我们利用了基类的大规模数据集。我们的首要目标是训练一个生成器来捕获基础数据集的数据变化。然后,我们将捕获的变化转换成新的类,通过生成合成数据与训练生成器。为了鼓励生成器捕捉数据的基础类的变化,我们建议训练生成器与一个最佳的传输损失,最大限度地减少真实和合成数据的分布之间的最佳传输距离。两个基准数据集上的大量实验表明,所提出的方法优于现有技术。源代码将可用。

1.10 Using deep learning for an automatic detection and classification of the vascular bifurcations along the Circle of Willis

基于深度学习的Willis环血管分支自动检测与分类

https://arxiv.org/abs/2308.15088

大多数颅内动脉瘤(ICA)发生在脑血管树的一个特定部分,称为Willis环(CoW)。更具体地,它们主要出现在构成该圆形结构的主要动脉分叉中的15个上。因此,为了有效和及时的诊断,开发一些能够准确识别每个感兴趣的分叉(BoI)的方法是至关重要的。事实上,自动提取的分叉提出了更高的风险发展ICA将提供神经放射科医生快速一瞥最令人担忧的领域。由于最近在人工智能方面的努力,深度学习被证明是许多模式识别任务中性能最好的技术。此外,已经为医学图像分析目的特别设计了各种方法。本研究旨在帮助神经放射科医师及时定位任何出现ICA高风险的分叉。它可以被视为计算机辅助诊断方案,其中人工智能促进对MRI内感兴趣区域的访问。在这项工作中,我们提出了一种方法,用于一个完全自动的检测和识别的兴趣的分叉形成的威利斯圆。几种神经网络架构已经过测试,我们彻底评估分叉识别率。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132752268