【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 14 日论文合集)

一、检测相关(7篇)

1.1 Continual Face Forgery Detection via Historical Distribution Preserving

基于保持历史分布的连续人脸伪造检测

https://arxiv.org/abs/2308.06217

人脸伪造技术发展迅速,并带来了严重的安全威胁。现有的人脸伪造检测方法试图学习可推广的特征,但它们仍然缺乏实际应用。此外,在历史训练数据上微调这些方法在时间和存储方面是资源密集型的。在本文中,我们关注一个新颖且具有挑战性的问题:连续人脸伪造检测(CFFD),旨在有效地学习新的伪造攻击,而不会忘记以前的攻击。具体来说,我们提出了一个历史分布保存(HDP)的框架,保留和保存的历史面孔的分布。为了实现这一目标,我们使用通用对抗扰动(UAP)来模拟历史伪造分布,并使用知识蒸馏来保持真实人脸在不同模型中的分布变化。我们还构建了一个新的基准CFFD与三个评估协议。我们在基准测试上的大量实验表明,我们的方法优于最先进的竞争对手。

1.2 Exploring Predicate Visual Context in Detecting of Human-Object Interactions

谓词视觉语境在人-物交互检测中的探索

https://arxiv.org/abs/2308.06202

最近,DETR框架已成为人-物交互(HOI)研究的主导方法。特别地,基于两级变压器的H 0 I检测器是最具性能和训练效率的方法之一。然而,这些通常条件的HOI分类的对象特征,缺乏细粒度的上下文信息,避开姿势和方向信息有利于视觉线索的对象身份和框的四肢。这自然阻碍了复杂或模糊的相互作用的识别。在这项工作中,我们通过可视化和精心设计的实验来研究这些问题。因此,我们研究如何最好地重新引入图像功能,通过交叉注意。通过改进的查询设计,对键和值的广泛探索,以及作为空间指导的框对位置嵌入,我们的模型具有增强的谓词视觉上下文(PViC),在HICO-DET和V-COCO基准测试中优于最先进的方法,同时保持低的训练成本。

1.3 Out-of-Distribution Detection for Monocular Depth Estimation

用于单目深度估计的非分布检测

https://arxiv.org/abs/2308.06072

在单目深度估计中,不确定性估计方法主要针对图像噪声引入的数据不确定性。与之前的工作相比,我们解决了由于缺乏知识而导致的不确定性,这与检测未由训练分布表示的数据(所谓的分布外(OOD)数据)有关。出于异常检测的动机,我们建议从基于重构误差的编码器-解码器深度估计模型检测OOD图像。给定用固定深度编码器提取的特征,我们训练图像解码器以仅使用分布内数据进行图像重建。因此,OOD图像导致高重建误差,我们使用该误差来区分分布内和分布外样本。我们在标准NYU Depth V2和KITTI基准上建立了我们的实验,作为分布数据。我们的事后方法在不同的模型上表现得非常好,并且在不修改训练的编码器-解码器深度估计模型的情况下优于现有的不确定性估计方法。

1.4 Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection

用于弱监督目标检测的循环Bootstrap标记法

https://arxiv.org/abs/2308.05991

弱监督对象检测的最新进展是多实例检测网络(MIDN)和有序在线细化的组合。然而,只有图像级的注释,MIDN不可避免地分配高分,一些意想不到的区域建议时,生成伪标签。这些不准确的高评分区域建议将误导后续细化模块的训练,从而妨碍检测性能。在这项工作中,我们探讨了如何改善质量的伪标记MIDN。形式上,我们设计了循环引导标记(CBL),一种新的弱监督对象检测管道,它优化了MIDN与排名信息从一个可靠的教师网络。具体来说,我们通过引入加权指数移动平均策略,利用各种细化模块,获得了这种教师网络。提出了一种新的类特定排序提取算法,利用加权集成教师网络的输出提取具有排序信息的MIDN。因此,MIDN被引导分配更高的分数,以准确的建议,在他们的邻居,从而有利于后续的伪标记。在流行的PASCAL VOC 2007 & 2012和COCO数据集上进行了大量的实验,证明了我们的CBL框架的优越性能。代码将在https://github.com/Yinyf0804/WSOD-CBL/上提供。

1.5 MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection

MS3D++:三维目标检测中的多源无监督域自适应专家集成

https://arxiv.org/abs/2308.05988

在不熟悉的领域部署3D探测器已被证明会导致检测率急剧下降高达70-90%,这是由于激光雷达、地理区域或天气条件与原始训练数据集的差异。该域间隙导致对密集观察的对象的缺失检测、未对准的置信度分数和增加的高置信度假阳性,使得检测器高度不可靠。为了解决这个问题,我们引入了MS 3D ++,这是一个用于3D对象检测中多源无监督域自适应的自训练框架。MS 3D ++通过生成高质量的伪标签提供了一种简单的域自适应方法,使3D探测器能够适应各种激光雷达类型,而无论其密度如何。我们的方法有效地融合了来自不同源域的多帧预训练检测器的集合的预测,以提高域泛化。随后,我们在时间上细化预测,以确保在框定位和对象分类的时间一致性。此外,我们提出了一个深入的研究各种3D检测器组件的性能和特质在跨域的上下文中,改进跨域检测器集成提供有价值的见解。在Waymo、nuScenes和Lyft上的实验结果表明,使用MS 3D ++伪标签训练的检测器实现了最先进的性能,与在低密度和高密度激光雷达的鸟瞰图(BEV)评估中使用人类注释标签进行训练的性能相当。

1.6 YOLOrtho – A Unified Framework for Teeth Enumeration and Dental Disease Detection

YOLOrtho–牙齿计数和牙病检测的统一框架

https://arxiv.org/abs/2308.05967

通过全景 X 射线图像检测牙齿疾病是牙医的标准程序。 通常,牙医需要识别疾病并找到受感染的牙齿。 虽然已经开发了许多采用这种两步过程的机器学习模型,但还没有一个可以同时识别牙齿及其相关疾病的端到端模型。 为了填补这一空白,我们开发了 YOLOrtho,这是一个用于牙齿计数和牙科疾病检测的统一框架。 我们根据 Dentex Challenge 2023 数据开发模型,该数据由三种不同类型的注释数据组成。 第一部分标记为象限,第二部分标记为象限和计数,第三部分标记为象限、计数和疾病。 为了进一步改进检测,我们利用塔夫茨牙科公共数据集。 为了充分利用数据并同时学习牙齿检测和疾病识别,我们将疾病制定为附加到相应牙齿的属性。 由于牙齿枚举中位置关系的性质,我们在模型中用 CoordConv 替换卷积层,以为模型提供更多位置信息。 我们还调整了模型架构,并在 FPN 中插入了一个上采样层,以支持大目标检测。 最后,我们提出了一种牙齿布局的后处理策略,该策略基于线性和分配来校正牙齿计数。 实验结果表明我们的模型超过了基于扩散的大型模型。

1.7 Aphid Cluster Recognition and Detection in the Wild Using Deep Learning Models

基于深度学习模型的野外麦长管蚜识别与检测

https://arxiv.org/abs/2308.05881

蚜虫侵扰对作物生产、农村社区和全球粮食安全构成重大威胁。虽然化学虫害防治对于最大限度地提高产量至关重要,但在整个田地中施用化学品既不可持续,又成本高昂。因此,蚜虫的精确定位和管理对于有针对性地施用农药至关重要。本文主要关注使用深度学习模型来检测蚜虫集群。我们提出了一种新的方法来估计感染水平检测蚜虫集群。为了促进这项研究,我们从高粱地捕获了一个大规模的数据集,手动选择了5,447张包含蚜虫的图像,并在这些图像中注释了每个单独的蚜虫集群。为了便于使用机器学习模型,我们通过将图像裁剪成补丁来进一步处理图像,从而产生包括151,380个图像补丁的标记数据集。然后,我们在蚜虫数据集上实现并比较了四种最先进的对象检测模型(VFNet,GFLV2,PAA和ATSS)的性能。大量的实验结果表明,所有的模型产生稳定的平均精度和召回方面的相似性能。然后,我们提出合并邻近的集群,并删除由裁剪引起的微小集群,性能进一步提高了约17%。该研究证明了使用机器学习模型自动检测和管理昆虫的可行性。标记的数据集将公开提供给研究社区。

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132466644