【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（9 月 20 日论文合集）

文章目录

一、检测相关(7篇)

一、检测相关(7篇)

1.1 Few-shot Object Detection in Remote Sensing: Lifting the Curse of Incompletely Annotated Novel Objects

遥感中的小镜头目标检测：解开未完全注解的新目标的魔咒

https://arxiv.org/abs/2309.10588

在这里插入图片描述
目标检测是计算机视觉和卫星图像处理中的一项重要而基础的工作。由于大规模注释数据集的可用性，现有的深度学习方法已经取得了令人印象深刻的性能。然而，在实际应用中，标签的可用性是有限的。在这种情况下，Few-Shot对象检测（FSOD）已成为一个有前途的方向，其目的是使模型能够检测到只有少数注释的新对象。然而，许多现有的FSOD算法忽略了一个关键问题：当输入图像包含多个新对象并且仅注释它们的子集时，在训练期间将未标记的对象视为背景。这可能会导致混乱，并严重影响模型回忆新对象的能力。为了解决这个问题，我们提出了一种基于自训练的FSOD（ST-FSOD）的方法，它将自训练机制融入到Few-Shot微调过程中。ST-FSOD旨在发现未注释的新对象，并在训练期间将其考虑在内。一方面，我们设计了一个双分支区域建议网络（RPN）分离的基础和新的对象的建议提取，另一方面，我们将学生教师机制纳入RPN和感兴趣区域（RoI）头，包括那些高度自信但未标记的目标作为伪标签。实验结果表明，我们提出的方法优于国家的最先进的各种FSOD设置的大幅度。这些代码将在https://github.com/zhu-xlab/ST-FSOD上公开提供。

1.2 A multimodal deep learning architecture for smoking detection with a small data approach

一种基于小数据方法的多模式深度学习吸烟检测系统

https://arxiv.org/abs/2309.10561

在这里插入图片描述
简介：隐蔽的烟草广告往往会引发监管措施。本文提出，人工智能，特别是深度学习，在检测隐藏广告方面具有巨大的潜力，并允许对烟草相关媒体内容进行公正，可重复和公平的量化。方法：我们提出了一个基于深度学习、生成方法和人类强化的集成文本和图像处理模型，即使在几乎没有可用训练数据的情况下，它也可以以文本和视觉格式检测吸烟病例。结果：该模型对图像的识别率为74%，对文本的识别率为98%。此外，我们的系统集成了专家干预的人力强化的形式的可能性。结论：使用通过深度学习提供的预训练的多模态、图像和文本处理模型，即使训练数据很少，也可以检测不同媒体中的吸烟。

1.3 Decoupling the Curve Modeling and Pavement Regression for Lane Detection

车道检测中的曲线建模与路面回归解耦

https://arxiv.org/abs/2309.10533

在这里插入图片描述
基于曲线的车道表示是许多车道检测方法中的流行方法，因为它允许将车道表示为整体对象，并最大限度地使用关于车道的整体信息。然而，由这些方法产生的曲线可能不能很好地与不规则线拟合，这与诸如基于分段或基于点的方法的间接表示相比可能导致性能上的差距。我们已经观察到，这些车道并不打算是不规则的，但它们在透视图中由于绘制在不平坦的路面上而呈现之字形。在本文中，我们提出了一种新的车道检测方法，将其分解为两个部分：曲线建模和地面高度回归。具体而言，我们使用参数化曲线来表示BEV空间中的车道，以反映车道的原始分布。对于第二部分，由于地面高度是由自然因素，如道路条件和不太全面，我们回归的关键点的地面高度分别从曲线建模。此外，我们已经统一了2D和3D车道检测任务，设计了一个新的框架和一系列损失，以指导有或没有3D车道标签的模型的优化。我们的实验2D车道检测基准（TuSimple和Culane），以及最近提出的3D车道检测数据集（ONCE-3Dlane和OpenLane），已经显示出显着的改进。我们将公开我们的源代码文档。

1.4 LineMarkNet: Line Landmark Detection for Valet Parking

LineMarkNet：用于代客停车的线路标检测

https://arxiv.org/abs/2309.10475

在这里插入图片描述
我们的目标是为代客泊车提供准确高效的路线地标检测，这是自动驾驶中一个长期存在但尚未解决的问题。为此，我们提出了一个深线地标检测系统，我们精心设计的模块是轻量级的。具体来说，我们首先经验性地设计了四个一般线地标，包括三个物理线和一个新的心理线。四行标志对于代客泊车是有效的。然后我们发展一个深层网络（LineMarkNet）来检测来自全景摄像机的线地标，其中我们通过预校准的单应性，将来自四个单独摄像机的上下文融合到统一的鸟瞰图中（BEV）空间，具体地，我们融合环绕视图特征和BEV特征，然后采用多任务解码器来检测多个线地标，其中我们将基于中心的策略应用于对象检测任务。并设计了我们的图形Transformer，以增强Vision Transformer器的层次图推理的语义分割任务。最后，我们进一步参数化检测到的线界标（例如，截距-斜率形式），由此新颖的滤波后端结合时间和多视图一致性以实现平滑和稳定的检测。此外，我们注释了一个大规模的数据集来验证我们的方法。实验结果表明，我们的框架实现了增强的性能相比，几个线检测方法，并验证了多任务网络的实时线地标检测高通820 A平台上的效率，同时保持优越的准确性，与我们的深线地标检测系统。

1.5 Exploring Different Levels of Supervision for Detecting and Localizing Solar Panels on Remote Sensing Imagery

太阳能电池板遥感探测定位不同监管层次的探讨

https://arxiv.org/abs/2309.10421

在这里插入图片描述
本研究探讨在遥感影像中的物体存在检测和定位，重点是太阳能电池板识别。我们探讨了不同的监管水平，评估了三种模式：完全监督的对象检测器、具有基于CAM的定位的弱监督的图像分类器和最小监督的异常检测器。分类器在二进制存在检测（0.79 F1分数）方面表现出色，而对象检测器（0.72）提供精确的定位。异常检测器需要更多的数据来实现可行的性能。模型结果的融合显示了潜在的准确性增益。CAM对本地化的影响不大，GradCAM、GradCAM++和HiResCAM产生了更好的结果。值得注意的是，与对象检测器相比，分类器在较少数据的情况下保持稳健。

1.6 Learning Point-wise Abstaining Penalty for Point Cloud Anomaly Detection

点云异常检测的逐点学习弃权法

https://arxiv.org/abs/2309.10230

在这里插入图片描述
基于LiDAR的语义场景理解是现代自动驾驶感知堆栈中的重要模块。然而，识别LiDAR点云中的分布外（OOD）点是具有挑战性的，因为与RGB图像相比，点云缺乏语义丰富的特征。我们从选择性分类的角度重新审视这个问题，它将选择性函数引入到标准闭集分类设置中。我们的解决方案是建立在放弃选择任何已知类别的基本思想，但学习一个逐点放弃惩罚与marginbased损失。合成离群值以近似无限的OOD样本对这个想法也很关键，因此我们提出了一个强大的合成管道，可以生成源于各种因素的离群值：不切实际的对象类别、采样模式和大小。我们证明，学习不同的弃权处罚，除了逐点处罚，不同类型的（合成）离群值可以进一步提高性能。我们在SemanticKITTI和nuScenes上对我们的方法进行了基准测试，并取得了最先进的结果。风险覆盖分析进一步揭示了不同方法的内在属性。代码和模型将公开提供。

1.7 Offline Detection of Misspelled Handwritten Words by Convolving Recognition Model Features with Text Labels

基于卷积识别模型特征和文本标签的手写错别词脱机检测

https://arxiv.org/abs/2309.10158

在这里插入图片描述
近年来，随着深度学习架构的出现，离线手写识别（HWR）得到了显着改善。然而，它仍然是一个具有挑战性的问题和实际应用往往依赖于后处理技术，通过词典或语言模型来限制预测的单词。尽管它们增强了性能，但是这样的系统在预期词汇表外单词的上下文中不太可用，例如，用于检测学校评估中拼写错误的单词。为此，我们介绍了比较手写图像的文本的任务。为了解决这个问题，我们提出了一个不受限制的二进制分类器，由一个HWR特征提取器和一个多模态分类头卷积的特征提取器输出与输入文本的矢量表示。我们模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明，在保持高召回率的同时，分类器可以校准，以实现平均精度增加19.5%相比，直接使用最先进的HWR模型解决任务。这种巨大的性能提升可以显著提高利用人在环自动化的应用程序的生产力。