【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（9 月 20 日论文合集）

文章目录

一、分类|识别相关(9篇)

一、分类|识别相关(9篇)

1.1 Language as the Medium: Multimodal Video Classification through text only

以语言为媒介：仅通过文本进行多模式视频分类

https://arxiv.org/abs/2309.10783

在这里插入图片描述
尽管多模态机器学习模型的新浪潮令人兴奋，但当前的方法仍然难以解释视频中存在的不同模态之间的复杂上下文关系。超越现有的方法，强调简单的活动或对象，我们提出了一个新的模型不可知的方法来生成详细的文本描述，捕捉多模态视频信息。我们的方法利用了大型语言模型（如GPT-3.5或Llama 2）所学到的广泛知识，来推理从BLIP-2，Whisper和ImageBind获得的视觉和听觉模态的文本描述。在不需要对视频文本模型或数据集进行额外微调的情况下，我们证明了可用的LLM能够使用这些多模态文本描述作为“视觉”或“听觉”的代理，并在上下文中对视频进行zero-shot多模态分类。我们对流行的动作识别基准测试（如UCF-101或Kinetics）的评估表明，这些上下文丰富的描述可以成功地用于视频理解任务。这种方法指出了多模态分类中一个有前途的新研究方向，展示了文本，视觉和听觉机器学习模型之间的相互作用如何能够实现更全面的视频理解。

1.2 Latent Space Energy-based Model for Fine-grained Open Set Recognition

基于潜在空间能量的细粒度开集识别模型

https://arxiv.org/abs/2309.10711

在这里插入图片描述
细粒度开集识别（FineOSR）旨在识别具有细微外观差异的类别的图像，同时拒绝未知类别的图像。OSR的最新趋势显示了生成模型对判别未知检测的好处。作为一种生成模型，基于能量的模型（EBM）是生成和判别任务的混合建模的潜力。然而，大多数现有的EBM遭受密度估计在高维空间，这是关键的识别图像从细粒度类。在本文中，我们探讨了低维的潜在空间与基于能量的先验分布的OSR在细粒度的视觉世界。具体而言，基于潜在空间EBM，我们提出了一个属性感知信息瓶颈（AIB），剩余属性特征聚合（RAFA）模块，和一个基于不确定性的虚拟离群值合成（UVOS）模块，以提高表达性，粒度和密度的细粒度类，分别。我们的方法是灵活的，以利用最近的Vision Transformers强大的视觉分类和生成。该方法在细粒度和一般视觉分类数据集上进行了验证，同时保留了生成具有高分辨率的逼真假图像的能力。

1.3 Sample-adaptive Augmentation for Point Cloud Recognition Against Real-world Corruptions

基于样本自适应增强的点云识别算法

https://arxiv.org/abs/2309.10431

在这里插入图片描述
腐败下的鲁棒3D感知已成为3D视觉领域的一项重要任务。而现有的数据增强技术通常以离线方式对所有点云对象进行随机变换，忽略了样本的结构，导致增强过度或不足。在这项工作中，我们提出了一种替代方案，使样本自适应转换的基础上的样本的结构，以应付潜在的腐败通过一个自动增强框架，名为AdaptPoint。特别地，我们利用一个模仿者，由变形控制器和掩模控制器组成，分别负责预测变形参数和产生每点掩模，基于输入点云的内在结构信息，然后在上面进行腐败模拟。然后利用鉴别器来防止偏离原始数据分布的过度损坏的产生。此外，一个感知指导反馈机制被纳入到指导具有适当的难度水平的样本的生成。此外，为了解决现实世界中损坏的点云的缺乏，我们还引入了一个新的数据集ScanObjectNN-C，它表现出更大的相似性，在现实世界环境中的实际数据，特别是与以前的CAD数据集相比。实验表明，我们的方法在多个腐败基准测试中取得了最先进的结果，包括ModelNet-C，我们的ScanObjectNN-C和ShapeNet-C。

1.4 Predicate Classification Using Optimal Transport Loss in Scene Graph Generation

场景图生成中基于最优传输损失的谓词分类

https://arxiv.org/abs/2309.10430

在这里插入图片描述
在场景图生成（SGG）中，交叉熵损失学习产生有偏差的预测，由于数据集中的关系标签的分布严重失衡。因此，本研究提出了一种方法来生成场景图，使用最佳运输作为比较两个概率分布的措施。我们应用学习的最佳运输损失，这反映了标签之间的相似性运输成本，谓词分类SGG。在所提出的方法中，最优运输的运输成本定义使用从预先训练的模型获得的单词的相似性。有效性的实验评估表明，所提出的方法优于现有的方法在平均Recall@50和100。此外，它还提高了数据集中几乎不可用的关系标签的召回。

1.5 Image-Text Pre-Training for Logo Recognition

用于标识识别的图文预训练

https://arxiv.org/abs/2309.10206

在这里插入图片描述
开放式标志识别通常通过首先检测可能的标志区域，然后将检测到的部分与不断演变的裁剪标志图像的数据集进行匹配来解决。匹配模型，一个度量学习问题，是特别具有挑战性的标志识别，由于混合的文本和符号在标志。我们提出了两个新的贡献，以提高匹配模型的性能：（a）使用图像-文本配对样本进行预训练，以及（b）改进的度量学习损失函数。微调ImageNet预训练模型的标准范例无法发现有效解决匹配问题所需的文本敏感性。这项工作表明了图像-文本对预训练的重要性，这显着提高了视觉嵌入器训练的标志检索任务的性能，特别是对于更多的文本占主导地位的类。我们构建了一个组合的公共徽标数据集，结合LogoDet 3 K，OpenLogo和FlickrLogos-47被认为是OpenLogoDet 3 K47。我们表明，在图像-文本数据上预训练的相同视觉骨干，当在OpenLogoDet 3 K47上微调时，实现了98.6美元的recall@1，显着提高了性能比Imagenet 1 K（97.6美元）的预训练。我们推广ProxyNCA++损失函数，提出ProxyNCAHN++，它结合了类特定的硬负片图像。所提出的方法设置新的国家的最先进的五个公共标志数据集考虑，与 $3.5\%$ zero-shot recall@1改进LogoDet 3 K测试， $4\%$ OpenLogo， $6.5\%$ FlickrLogo-47， $6.2\%$ Logo在野生的标志，和 $0.6\%$ BelgaLogo。

1.6 Human Gait Recognition using Deep Learning: A Comprehensive Review

深度学习在步态识别中的应用综述

https://arxiv.org/abs/2309.10144

在这里插入图片描述
步态识别（GR）是一种不断发展的生物识别方式，用于通过视觉相机从远处进行人员识别。GR为指纹和面部识别提供了一种安全可靠的替代方案，因为它更难区分虚假和真实的信号。此外，它的抗欺骗性使GR适用于所有类型的环境。随着深度学习的兴起，GR技术取得了稳步进步，在各种环境下都取得了可喜的成果。随着视频监控变得越来越普遍，出现了新的障碍，例如确保不同协议的统一性能评估，即使在变化的照明条件下也能可靠识别，步态模式波动，以及保护隐私。本次调查旨在概述GR，并分析与其他生物识别系统相比可能影响其的环境因素和并发症。主要目标是检查用于人类GR的现有深度学习（DL）技术，这些技术可能会产生新的研究机会。

1.7 Parameter-Efficient Long-Tailed Recognition

参数高效的长尾识别

https://arxiv.org/abs/2309.10019

在这里插入图片描述
自大型视觉语言模型（如对比语言图像预训练（CLIP））出现以来，解决长尾识别任务的“预训练和微调”范式引起了人们的极大兴趣。虽然先前的研究已经显示出在适应这些任务的预训练模型方面的希望，但它们通常不期望地需要大量的训练时期或额外的训练数据来保持良好的性能。在本文中，我们提出了PEL，这是一种微调方法，可以在不到20个时期内有效地使预训练模型适应长尾识别任务，而不需要额外的数据。我们首先经验地发现，常用的微调方法，如完全微调和分类器微调，遭受过拟合，导致性能恶化的尾部类。为了缓解这个问题，PEL通过采用任何现有的参数有效的微调方法的设计来引入少量的任务特定的参数。此外，为了加快收敛，PEL提出了一种新的语义感知分类器初始化技术，从CLIP文本编码器派生，而不增加任何计算开销。我们在四个长尾数据集上的实验结果表明，PEL始终优于以前的最先进的方法。源代码可在https://github.com/shijxcs/PEL上获得。

1.8 CaSAR: Contact-aware Skeletal Action Recognition

CASAR：接触感知骨骼动作识别

https://arxiv.org/abs/2309.10001

在这里插入图片描述
从自我中心视图中的骨骼动作识别对于诸如AR/VR眼镜中的界面和人机交互之类的应用来说非常重要，其中设备资源有限。大多数现有的骨骼动作识别方法使用手关节的3D坐标和对象的8角矩形边界框作为输入，但它们不捕捉手和对象如何在空间上下文内彼此交互。在本文中，我们提出了一个新的框架称为接触感知骨骼动作识别（CaSAR）。它使用包含空间信息的手-物体交互的新颖表示：1）手关节与物体接触的接触点，2）手关节远离物体且几乎不参与当前动作的远点。我们的框架是能够学习手如何接触或远离对象的动作序列的每一帧，并使用这些信息来预测动作类。我们证明，我们的方法实现了国家的最先进的准确率91.3%和98.4%的两个公共数据集，H2O和FPHA，分别。

1.9 ProtoKD: Learning from Extremely Scarce Data for Parasite Ova Recognition

ProtoKD：从极其稀缺的数据中学习寄生虫OVA识别

https://arxiv.org/abs/2309.10210

在这里插入图片描述
为早期寄生虫检测开发可靠的计算框架，特别是在卵（或卵）阶段，对于推进医疗保健和有效管理潜在的公共卫生危机至关重要。虽然深度学习在各种任务中为人类工作者提供了显着的帮助，但其应用和诊断一直受到对广泛数据集的需求的限制。从极其稀缺的训练数据集学习的能力，即，当每类少于5个示例时，对于在生物医学应用中缩放深度学习模型是必不可少的，其中大规模数据收集和注释可能是昂贵的或不可能的（在新的或未知的感染因子的情况下）。在这项研究中，我们介绍了ProtoKD，第一种方法来解决问题的多类寄生虫卵识别使用极其稀缺的数据。结合原型网络和自蒸馏的原理，我们可以从每个类的一个样本中学习鲁棒的表示。此外，我们建立了一个新的基准来推动这一关键方向的研究，并验证所提出的ProtoKD框架实现了最先进的性能。此外，我们评估框架的推广到其他下游任务，通过评估其性能的大规模分类分析任务的基础上，从现实世界的临床数据测序的宏基因组。