一、检测相关(9篇)

1.1 Boosting Detection in Crowd Analysis via Underutilized Output Features

利用未充分利用的输出特征增强人群分析中的检测

https://arxiv.org/abs/2308.16187

基于检测的方法在人群分析中由于其在密集人群中的表现不佳而被视为不利的。然而，我们认为，这些方法的潜力被低估了，因为他们提供了关键的信息，人群分析，往往被忽视。具体而言，输出提案和边界框的区域大小和置信度得分提供了对人群规模和密度的洞察。为了利用这些未充分利用的功能，我们提出了Crowd Hat，即插即用模块，可以很容易地与现有的检测模型集成。该模块使用混合2D-1D压缩技术来细化输出特征，并获得特定人群信息的空间和数值分布。基于这些特点，我们进一步提出了区域自适应NMS阈值和解耦然后对齐范式，解决基于检测的方法的主要局限性。我们广泛的评估各种人群分析任务，包括人群计数，定位和检测，证明了利用输出功能和潜在的基于检测的方法在人群分析的有效性。

1.2 CircleFormer: Circular Nuclei Detection in Whole Slide Images with Circle Queries and Attention

CircleFormer：基于圆形查询和关注的整体幻灯片图像圆形核检测

https://arxiv.org/abs/2308.16145

基于CNN和基于Transformer的包围盒表示的目标检测在计算机视觉和医学图像分析中已经得到了广泛的研究，但医学图像中的圆形目标检测仍然是研究不足的。受最近基于无锚CNN的圆形对象检测方法（CircleNet）的肾脏病理球检测的启发，本文提出了CircleFormer，一种基于变压器的圆形医学对象检测动态锚圆。具体而言，在Transformer解码器中使用圆形表示的查询迭代细化圆形对象检测结果，并引入圆形交叉注意模块来计算圆形查询与图像特征之间的相似度。提出了一种广义圆IoU（gCIoU）作为一种新的回归损失的圆形目标检测。此外，我们的方法很容易推广到分割任务，通过添加一个简单的分割分支到CircleFormer。我们评估我们的方法在圆形核的检测和分割公共MoNuSeg数据集上，实验结果表明，我们的方法实现了有前途的性能相比，国家的最先进的方法。每个组件的有效性也通过消融研究得到确认。我们的代码发布于：\url{https：//github.com/zhanghx-iim-ahu/CircleFormer}.

1.3 Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection

基于多通道语境知识的开放词汇对象检测

https://arxiv.org/abs/2308.15846

在本文中，我们第一次探讨有用的多模态上下文知识，以了解新的类别开放词汇对象检测（OVD）。多模态语境知识代表跨地域、跨词语的联合关系。然而，它是具有挑战性的，将这样的多模态上下文知识到OVD。原因是先前的检测框架未能联合建模多模态上下文知识，因为对象检测器仅支持视觉输入，并且在测试时不提供字幕描述。为此，我们提出了一个多模态上下文知识蒸馏框架，MMC-Det，从教师融合Transformer与不同的多模态掩码语言建模（D-MLM）学生检测器学习的上下文知识。在传统的多模态掩蔽语言建模（MLM）基础上，通过对象发散约束实现了多样性的多模态掩蔽语言建模，以提取对目标检测至关重要的细粒度区域级视觉上下文。各种检测数据集上进行的大量实验表明，我们的多模态上下文学习策略的有效性，我们的方法优于最近的国家的最先进的方法。

1.4 Early Detection of Red Palm Weevil Infestations using Deep Learning Classification of Acoustic Signals

基于声信号深度学习分类的红掌象甲危害早期检测

https://arxiv.org/abs/2308.15829

红棕榈象鼻虫（RPW），也被称为棕榈象鼻虫，被认为是世界上最具破坏性的棕榈害虫之一。目前的检测技术包括使用视觉或声音检查的RPW症状的检测和由受感染的棕榈树产生的挥发性签名的化学检测。然而，在早期阶段有效地检测RPW疾病被认为是栽培枣棕榈最具挑战性的问题之一。在本文中，提出了一种有效的方法来早期检测RPW。所提出的方法是基于RPW的声音活动被记录和分析。第一步涉及基于所选择的特征集将声音数据转换成图像。第二步涉及将来自相同声音文件但由不同特征计算的图像组合成单个图像。第三步涉及应用不同的深度学习（DL）技术将结果图像分类为两类：感染和不感染。实验结果表明，所提出的RPW检测方法使用不同的DL技术，即MobileNetV2，ResNet50V2，ResNet152V2，VGG16，VGG19，DenseNet121，DenseNet201，Xception和InceptionV3的良好性能。所提出的方法优于现有的公共数据集技术。

1.5 Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking

多目标跟踪中的遮挡检测和重ID校正网络

https://arxiv.org/abs/2308.15795

多目标跟踪（MOT）是一项重要的计算机视觉任务，其目的是同时预测物体的边界框和身份。虽然最先进的方法通过联合优化检测和Re-ID特征学习的多任务问题取得了显着的进展，但很少有方法探索解决遮挡问题，这是MOT领域的一个长期挑战。通常，被遮挡的对象可能阻碍检测器估计边界框，从而导致碎片化的轨迹。并且学习到的遮挡Re-ID嵌入不太明显，因为它们包含干扰源。为此，我们提出了一个遮挡感知检测和Re-ID校准的多目标跟踪网络，称为ORCTrack。具体而言，我们提出了一个遮挡感知注意（OAA）的检测器模块，突出对象的功能，同时抑制被遮挡的背景区域。OAA可以用作增强检测器的调制器，用于一些潜在被遮挡的物体。此外，我们设计了一个基于最优传输问题的Re-ID嵌入匹配块，重点是通过不同的相邻帧互补地增强和校准Re-ID表示。为了验证所提出的方法的有效性，广泛的实验进行了两个具有挑战性的VisDrone 2021-MOT和KITTI基准。实验结果表明，我们的方法的优越性，它可以实现新的国家的最先进的性能和享受高的运行时间效率。

1.6 Towards Earlier Detection of Oral Diseases On Smartphones Using Oral and Dental RGB Images

利用口腔和牙科RGB图像在智能手机上早期检测口腔疾病

https://arxiv.org/abs/2308.15705

口腔疾病如牙周（牙龈）疾病和龋齿（龋齿）影响当今全世界数十亿人。然而，以前的最先进的模型依赖于X射线图像来检测口腔疾病，使得远程监测、发展中国家和远程医疗无法访问它们。为了对抗这种对X射线图像的过度使用，我们提出了一种轻量级的机器学习模型，能够检测RGB图像中的结石（也称为硬化斑块或牙垢），同时在低端设备上高效运行。该模型是从ImageNet学习的修改后的MobileNetV 3-Small神经网络传输，实现了72.73%的准确率（与最先进的解决方案相当），同时仍然能够在移动设备上运行，因为其减少了内存需求和处理时间。基于ResNet 34的模型也被构建，并实现了81.82%的准确率。这两种模型都在移动应用程序上进行了测试，证明了它们有可能限制严重口腔疾病病例的数量，因为它们的预测可以帮助患者更早地安排预约，而不需要去诊所。

1.7 Unveiling Camouflage: A Learnable Fourier-based Augmentation for Camouflaged Object Detection and Instance Segmentation

揭开伪装：一种基于可学习傅里叶变换的伪装目标检测与实例分割算法

https://arxiv.org/abs/2308.15660

伪装对象检测（COD）和伪装实例分割（CIS）的目标是识别和分割的对象，融入他们的周围环境，分别。虽然已经提出了几种深度神经网络模型来解决这些任务，但COD和CIS的增强方法尚未得到彻底探索。增强策略可以通过增加训练数据的大小和多样性并将模型暴露于更广泛的数据变化来帮助提高模型的性能。此外，我们的目标是自动学习转换，帮助揭示伪装对象的底层结构，并允许模型学习更好地识别和分割伪装对象。为了实现这一点，我们提出了一种可学习的增强方法，在频域的COD和CIS通过傅里叶变换的方法，称为CamoFourier。我们的方法利用条件生成对抗网络和交叉注意机制来生成参考图像和具有参数的自适应混合交换，以混合参考图像的低频分量和输入图像的高频分量。这种方法的目的是使伪装对象更明显的检测和分割模型。没有花里胡哨的，我们提出的增强方法大幅提升了伪装对象检测器和伪装实例分割器的性能。

1.8 Detection of Mild Cognitive Impairment Using Facial Features in Video Conversations

利用视频对话中的面部特征检测轻度认知障碍

https://arxiv.org/abs/2308.15624

轻度认知障碍（MCI）的早期检测导致早期干预以减缓从MCI到痴呆的进展。深度学习（DL）算法可以帮助实现MCI的早期无创、低成本检测。本文提出了检测MCI在老年人使用DL模型的基础上，仅从视频录制的对话中提取的面部特征。我们使用了从I-CONECT行为干预研究（NCT 02871921）中收集的数据，在该研究中，对社交孤立的老年人和访谈者之间的几次半结构化访谈进行了视频记录。我们开发了一个框架，提取空间整体面部特征使用卷积自动编码器和时间信息使用Transformers。我们提出的DL模型能够检测I-CONECT研究参与者的认知状况（MCI与具有正常认知（NC）的人）。与非时间特征相比，人脸特征的分段和序列信息提高了预测性能。使用这种组合方法的检测准确率达到88%，而84%的准确率是不应用的片段和序列信息的人脸特征在视频中的某一主题。

1.9 A Pseudo-Boolean Polynomials Approach for Image Edge Detection

一种伪布尔多项式图像边缘检测方法

https://arxiv.org/abs/2308.15557

我们介绍了一种新的图像边缘检测方法的基础上的伪布尔多项式的图像补丁。我们表明，补丁覆盖图像中的边缘区域的结果伪布尔多项式与更高的程度相比，补丁覆盖斑点区域。该方法是基于减少多项式的次数和等价性的惩罚为基础的伪布尔多项式。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 31 日论文合集）

文章目录