【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(9 月 18 日论文合集)

一、检测相关(11篇)

1.1 OccupancyDETR: Making Semantic Scene Completion as Straightforward as Object Detection

OccuancyDETR:使语义场景完成像对象检测一样简单

https://arxiv.org/abs/2309.08504

在这里插入图片描述
基于视觉的3D语义占用感知(也称为3D语义场景完成)是用于自动驾驶等机器人应用的新感知范式。与鸟瞰图(BEV)感知相比,它扩展了垂直维度,显著增强了机器人理解周围环境的能力。然而,正是由于这个原因,当前3D语义占用感知方法的计算需求通常超过BEV感知方法和2D感知方法。我们提出了一种新的三维语义占用感知方法,OccupancyDETR,它包括一个类似DETR的对象检测模块和一个三维占用解码模块。对象检测的集成在结构上简化了我们的方法-而不是预测每个体素的语义,它识别场景中的对象及其各自的3D占用网格。这加快了我们的方法,减少了所需的资源,并利用了对象检测算法,使我们的方法在小对象上显着的性能。我们证明了我们提出的方法的有效性SemanticKITTI数据集,展示了23的mIoU和每秒6帧的处理速度,从而提出了一个有前途的解决方案,实时3D语义场景完成。

1.2 An Efficient Wide-Range Pseudo-3D Vehicle Detection Using A Single Camera

一种高效的单摄像机大范围伪3D车辆检测方法

https://arxiv.org/abs/2309.08369

在这里插入图片描述
宽范围和细粒度的车辆检测在智能驾驶系统中实现主动安全功能方面发挥着关键作用。然而,现有的基于矩形包围盒(BBox)的车辆检测方法往往难以感知大范围的物体,特别是在长距离的小物体。BBox表达式不能提供车辆的详细几何形状和姿态信息。本文提出了一种新的宽范围的伪三维车辆检测方法的基础上,从一个单一的摄像机的图像,并结合有效的学习方法。该模型以拼接图像作为输入,这是通过从高分辨率图像中合成两个子窗口图像获得的。这种图像格式最大限度地利用有限的图像分辨率,以保留有关宽范围的车辆对象的基本信息。为了检测伪3D对象,我们的模型采用专门设计的检测头。这些摄像头同时输出扩展的BBox和侧投影线(SPL)表示,可捕捉车辆形状和姿态,从而实现高精度检测。为了进一步提高检测性能,在模型训练过程中设计了结合对象盒和SPL的联合约束损失,提高了模型的效率、稳定性和预测精度。在我们自建的数据集上的实验结果表明,我们的模型在多个评估指标的大范围伪3D车辆检测中取得了良好的性能。我们的演示视频已放在https://www.youtube.com/watch? v=1gk1PmsQ5Q8。

1.3 M 3 ^3 3Net: Multilevel, Mixed and Multistage Attention Network for Salient Object Detection

M 3 ^3 3Net:用于显著目标检测的多级、混合和多级注意网络

https://arxiv.org/abs/2309.08365

在这里插入图片描述
现有的显著目标检测方法大多采用U-Net或特征金字塔结构,简单地将不同尺度的特征图进行聚合,忽略了它们之间的唯一性和相互依赖性以及它们各自对最终预测的贡献。为了克服这些问题,我们提出了M 3 ^3 3Net,即:用于显著目标检测的多级、混合和多级注意网络。首先,我们提出了多尺度交互块,创新性地引入交叉注意的方法来实现多层次特征之间的交互,允许高层特征指导低层次特征学习,从而增强显着区域。其次,考虑到以前的Transformer器基于SOD方法定位显着区域,只使用全局自注意,而不可避免地忽略了复杂对象的细节,我们提出了混合注意块。该块结合了全局自注意和窗口自注意,旨在在全局和局部水平上建模上下文,以进一步提高预测图的准确性。最后,我们提出了一种多级监督策略,以优化聚合特征的阶段性。在六个具有挑战性的数据集上的实验表明,所提出的M 3 ^3 3Net在四个指标方面超过了最近的CNN和基于Transformer的SOD技术。代码可在https://github.com/I2-Multimedia-Lab/M3Net获取。

1.4 Edge Based Oriented Object Detection

基于边缘的目标检测

https://arxiv.org/abs/2309.08265

在遥感领域中,我们经常使用有向包围盒(OBB)来约束对象。这种方法显著地减少了密集检测框之间的重叠,并且最小化了边界框内的背景内容的包含。为了提高定向对象的检测精度,我们提出了一个独特的基于边缘梯度的损失函数,模板匹配任务中使用的相似性度量函数的启发。在这个过程中,我们解决的问题的不可微的功能和语义对齐的梯度向量在地面实况(GT)框和预测框(PB)。实验结果表明,我们提出的损失函数实现 0.6 % 0.6\% 0.6% mAP的改进相比,常用的平滑L1损失的基线算法。此外,我们设计了一个基于边缘的自我关注模块,以鼓励检测网络更多地关注对象的边缘。利用这两项创新,我们在DOTA数据集上实现了1.3%的mAP增长。

1.5 A Real-time Faint Space Debris Detector With Learning-based LCM

一种基于学习LCM的实时微弱空间碎片探测器

https://arxiv.org/abs/2309.08244

在这里插入图片描述
随着航天技术的发展,空间碎片的数量日益增多,对航天器的安全构成了极大的威胁。然而,空间碎片的低反射光强度和高角速度阻碍了提取。此外,由于地面观测手段的限制,小的空间碎片很难被探测到,这就需要提高航天器的空间态势感知能力。针对传统方法在低信噪比目标检测中效率低、耗时长的缺陷,提出了一种基于局部对比度和最大似然估计(MLE)的低信噪比条纹提取方法,能够有效地检测信噪比为2.0的空间目标。在该算法中,局部对比将应用于粗分类,这将返回连接组件作为初步的结果,然后将执行最大似然估计重建的连接组件的目标,通过定向生长,进一步提高精度。该算法已被验证与模拟条纹和真实的星跟踪器图像,所提出的算法的平均质心误差是接近的国家的最先进的方法,如ODCC。同时,本文的算法与ODCC算法相比,在效率上具有显著的优势。综上所述,本文算法速度快、精度高,在高动态目标提取中有很好的应用前景。

1.6 ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection

ECEA:可扩展共存关注点的Few-Shot目标检测

https://arxiv.org/abs/2309.08196

在这里插入图片描述
Few-Shot对象检测(FSOD)从极少数注释样本中识别对象。现有的FSOD方法,最近,应用两阶段学习范式,它转移的知识,从丰富的基类,以协助Few-Shot检测器通过学习的全球功能。然而,这种现有的FSOD方法很少考虑对象的本地化到全局化。受限于FSOD训练数据的稀缺性,新类的训练样本通常捕获部分对象,导致这种FSOD方法在测试过程中无法检测到完全看不见的对象。为了解决这个问题,我们提出了一个可扩展的共存注意力(ECEA)模块,使模型推断的全球对象,根据当地的部分。本质上,所提出的模块在具有丰富样本的基础阶段不断学习可扩展能力,并将其转移到新阶段,这可以帮助Few-Shot模型快速适应将局部区域扩展到共存区域。具体来说,我们首先设计了一个可扩展的注意力机制,从一个局部区域开始,并将注意力扩展到与给定局部区域相似和相邻的共存区域。然后,我们实现了可扩展的注意力机制,在不同的特征尺度,逐步发现完整的对象在不同的感受野。在PASCAL VOC和COCO数据集上进行的大量实验表明,我们的ECEA模块可以帮助Few-Shot检测器完全预测对象,尽管一些区域未能出现在训练样本中,并与现有的FSOD方法相比,达到了新的技术水平。

1.7 DA-RAW: Domain Adaptive Object Detection for Real-World Adverse Weather Conditions

DA-RAW:适用于实际恶劣天气条件的域自适应目标检测

https://arxiv.org/abs/2309.08152

在这里插入图片描述
尽管近年来基于深度学习的目标检测方法取得了成功,但要使目标检测器在雨雪等恶劣天气条件下可靠仍然具有挑战性。对于目标检测器的鲁棒性能,无监督域自适应已被用于适应在晴朗天气图像上训练的检测网络不利天气图像。虽然先前的方法没有明确地解决适应期间的天气破坏,但晴朗天气和不利天气之间的域差距可以分解为具有不同特征的两个因素:风格差距和天气差距。在本文中,我们提出了一个无监督的域自适应框架的对象检测,可以更有效地适应现实世界的环境中的恶劣天气条件下,分别解决这两个差距。我们的方法解决了风格的差距集中在风格相关的信息的高层次的功能使用注意模块。使用自我监督的对比学习,我们的框架,然后减少天气差距,并获得实例功能,是强大的天气腐败。大量的实验表明,我们的方法优于其他方法的目标检测在恶劣的天气条件下。

1.8 Let’s Roll: Synthetic Dataset Analysis for Pedestrian Detection Across Different Shutter Types

让我们来看看:用于不同快门类型行人检测的合成数据集分析

https://arxiv.org/abs/2309.08136

在这里插入图片描述
计算机视觉(CV)流水线通常在由图像信号处理(ISP)流水线处理的数据集上进行评估,即使对于资源受限的应用,重要的研究目标是避免尽可能多的ISP步骤。特别是,大多数CV数据集由全局快门(GS)图像组成,即使当今大多数相机使用卷帘快门(RS)。本文研究了不同快门机制对机器学习(ML)对象检测模型的影响,该模型基于我们使用虚幻引擎5(UE5)的高级模拟功能生成的合成数据集。特别地,我们用我们合成生成的成对GS和RS数据集来训练和评估主流检测模型,以确定这两种快门模式之间的检测准确性是否存在显著差异,特别是在捕获低速对象(例如,行人)。该仿真框架的结果表明,它们之间的性能是显着一致的粗粒度检测(平均平均精度(mAP)IOU=0.5),但有显着差异的细粒度的检测精度的措施(mAP IOU=0.5:0.95)。这意味着对于许多对象检测应用,ML流水线可能不需要对RS进行显式校正,但是减轻针对对象的细粒度位置的无ISP ML流水线中的RS效应可能需要额外的研究。

1.9 BEA: Revisiting anchor-based object detection DNN using Budding Ensemble Architecture

BEA:基于萌芽集成结构的锚点目标检测DNN

https://arxiv.org/abs/2309.08036

在这里插入图片描述
本文介绍了萌芽集成架构(BEA),一种新的减少集成架构的锚为基础的目标检测模型。目标检测模型在基于视觉的任务中至关重要,特别是在自主系统中。它们应该提供精确的边界框检测,同时还校准其预测的置信度得分,从而获得更高质量的不确定性估计。然而,当前的模型可能由于假阳性接收高分或真阳性由于低分数而被丢弃而做出错误的决定。BEA旨在解决这些问题。BEA中提出的损失函数提高了置信度评分校准并降低了不确定性误差,从而更好地区分真阳性和假阳性,并最终提高了对象检测模型的准确性。Base-YOLOv 3和SSD模型都使用BEA方法及其提出的损失函数进行了增强。在KITTI数据集上训练的BEA on Base-YOLOv 3分别导致mAP和AP 50增加6%和3.7%。利用平衡良好的不确定性估计阈值实时丢弃样本甚至导致AP 50比其基础模型高9.6%。这归因于基于AP 50的保留曲线下面积增加40%,该保留曲线下面积用于测量置信度评分的校准质量。此外,与YOLOv 3和Gaussian-YOLOv 3的集合和香草模型相比,在KITTI上训练的BEA-YOLOV 3在Citypersons,BDD 100 K和COCO数据集上提供了卓越的分布外检测。

1.10 Reconsidering evaluation practices in modular systems: On the propagation of errors in MRI prostate cancer detection

重新考虑模块化系统中的评估实践:论MRI前列腺癌检测中的误差传播

https://arxiv.org/abs/2309.08381

在这里插入图片描述
磁共振成像已经发展为前列腺癌(PCa)检测的关键部件,大大增加了放射科医师的工作量。人工智能(AI)系统可以通过分割和分类具有临床意义(csPCa)和非临床意义(ncsPCa)的病变来支持放射学评估。通常,用于PCa检测的AI系统涉及自动前列腺分割,然后使用提取的前列腺进行病变检测。然而,评估报告通常在检测方面呈现的假设下的一个高度准确的分割和理想的场景,省略了模块之间的错误的传播。为此,我们评估了在检测阶段具有异构性能的两种不同分割网络(s1和s2)的效果,并将其与理想设置进行比较(s1:89.90 ± 2.23 vs 88.97 ± 3.06 ncsPCa,P<.001,89.30 ± 4.07和88.12 ± 2.71 csPCa,P<.001)。我们的结果描绘了一个整体评价的相关性,占所有的子模块的系统。

1.11 A Real-Time Active Speaker Detection System Integrating an Audio-Visual Signal with a Spatial Querying Mechanism

一种结合视听信号和空间查询机制的实时主动说话人检测系统

https://arxiv.org/abs/2309.08295

在这里插入图片描述
我们介绍了一个独特的实时,因果关系,基于神经网络的有源说话人检测系统优化低功耗边缘计算。该系统驱动虚拟电影摄影模块,并部署在商业设备上。该系统使用源自麦克风阵列和360度相机的数据。我们的网络仅要求每位与会者127个MFLOP,对于14名与会者的会议。与以前的工作不同,我们检查我们的网络的错误率时,计算预算耗尽,并发现它表现出优雅的退化,允许系统运行相当好,即使在这种情况下。从传统的DOA估计方法出发,我们的网络学习查询可用的声学数据,考虑到检测到的头部位置。我们在一个现实的会议数据集上训练和评估我们的算法,该数据集包含同一会议中多达14名参与者,重叠的语音和其他具有挑战性的场景。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132975963