文章目录

一、分类|识别相关(8篇)

一、分类|识别相关(8篇)

1.1 Visual Speech Recognition for Low-resource Languages with Automatic Labels From Whisper Model

基于耳语模型自动标注的低资源语言视觉语音识别

https://arxiv.org/abs/2309.08535

在这里插入图片描述
本文提出了一种功能强大的视觉语音识别（VSR）方法，用于多种语言，特别是对于低资源的语言，具有有限数量的标记数据。与以前试图通过使用从其他语言中学习到的知识来提高目标语言的VSR性能的方法不同，我们探索是否可以在没有人为干预的情况下增加不同语言的训练数据本身的量。为此，我们采用了耳语模型，可以进行语言识别和基于音频的语音识别。它用于过滤所需语言的数据，并从未注释的多语言视听数据库中转录标签。通过比较在自动标签和人类注释标签上训练的VSR模型的性能，我们表明，即使不使用人类注释，我们也可以实现与人类注释标签相似的VSR性能。通过自动标记过程，我们标记了大规模未标记的多语言数据库VoxCeleb2和AVSpeech，为四种低VSR资源语言（法语，意大利语，西班牙语和葡萄牙语）生成了1，002小时的数据。通过自动标签，我们在四种语言的mTEDx上实现了新的最先进的性能，大大超过了以前的方法。自动标签可在线获取：https://github.com/JeongHun0716/Visual-Speech-Recognition-for-Low-Resource-Languages

1.2 Human-Inspired Topological Representations for Visual Object Recognition in Unseen Environments

用于不可见环境下视觉对象识别的人启发拓扑表示

https://arxiv.org/abs/2309.08239

在这里插入图片描述
在看不见的和杂乱的室内环境中的视觉对象识别是移动机器人的一个具有挑战性的问题。为了实现这一目标，我们扩展了我们以前的工作，提出了TOPS 2描述符，和一个配套的识别框架，THOR 2，灵感来自人类的推理机制，被称为对象的统一。我们交错的颜色嵌入获得的映射算法的拓扑软聚类与基于形状的TOPS描述符，以获得TOPS 2描述符。使用合成数据训练的THOR 2实现了比基于形状的THOR框架更高的识别准确性，并且在两个真实世界数据集上优于RGB-D ViT：基准OCID数据集和UW-IS遮挡数据集。因此，THOR 2是在低成本机器人中实现鲁棒识别的有希望的一步。

1.3 Differentiable Resolution Compression and Alignment for Efficient Video Classification and Retrieval

用于高效视频分类和检索的可差分分辨率压缩和对齐

https://arxiv.org/abs/2309.08167

在这里插入图片描述
随着各个领域对视频分析的需求不断增长，优化视频推理效率变得越来越重要。一些现有的方法通过显式丢弃空间或时间信息来实现高效率，这在快速变化和细粒度的场景中提出了挑战。为了解决这些问题，我们提出了一个高效的视频表示网络与差分分辨率压缩和对齐机制，在网络的早期阶段压缩非必要的信息，以减少计算成本，同时保持一致的时间相关性。具体来说，我们利用可区分的上下文感知压缩模块来编码显著性和非显著性帧特征，将特征细化和更新为高低分辨率视频序列。为了处理新的序列，我们引入了一个新的分辨率对齐Transformer层，以捕获具有不同分辨率的帧特征之间的全局时间相关性，同时通过在低分辨率非显着帧中利用更少的空间令牌来二次降低空间计算成本。整个网络可以通过集成可微分压缩模块进行端到端优化。实验结果表明，我们的方法实现了效率和性能之间的最佳权衡之间的接近重复的视频检索和竞争结果的动态视频分类相比，国家的最先进的方法。产品编号：https://github.com/dun-research/DRCA

1.4 Data-Driven Goal Recognition in Transhumeral Prostheses Using Process Mining Techniques

基于过程挖掘的数据驱动目标识别在经胸骨假体中的应用

https://arxiv.org/abs/2309.08106

在这里插入图片描述
经肱骨假体修复肩部以下缺失的解剖节段，包括手。主动假肢利用实值连续传感器数据来识别患者目标姿势或目标，并主动移动假肢。以前的研究已经研究了在不考虑时间步长的情况下，在静止姿势中收集的数据可以帮助区分目标。在这个案例研究论文中，我们专注于使用表面肌电图电极和运动传感器的时间序列数据来顺序识别患者的目标。我们的方法包括将数据转换为离散事件，并训练现有的基于过程挖掘的目标识别系统。在虚拟现实环境中收集的10名受试者的数据结果证明了我们提出的目标识别方法的有效性，该方法比最先进的机器学习技术实现了更好的精确度和召回率，并且在错误时不太自信，这在近似假体的更平滑运动时是有益的。

1.5 hear-your-action: human action recognition by ultrasound active sensing

听到你的行动：通过超声主动感知识别人类行动

https://arxiv.org/abs/2309.08087

在这里插入图片描述
动作识别是许多工业应用的关键技术。使用诸如图像的视觉信息的方法非常流行。然而，隐私问题阻止了广泛的使用，这是由于包括了私有信息，诸如可见面部和场景背景，这不是识别用户动作所必需的。在本文中，我们提出了一个隐私保护的行动识别超声主动传感。作为动作识别从超声主动传感在非侵入性的方式没有得到很好的研究，我们创建一个新的数据集的动作识别和进行比较的功能分类。我们通过聚焦超声反射波的振幅的时间变化来计算特征值，并使用支持向量机和VGG对8个基本动作类进行分类。我们证实，我们的方法在同一个人和相同的环境中进行训练和评估时，达到了97.9%的准确率。此外，我们的方法实现了89.5%的准确率，即使在不同的人的训练和评估。我们还报告了在各种条件和限制的准确性分析。

1.6 Towards Large-scale Building Attribute Mapping using Crowdsourced Images: Scene Text Recognition on Flickr and Problems to be Solved

利用众包图像进行大比例尺建筑物属性映射：Flickr上的场景文本识别及需要解决的问题

https://arxiv.org/abs/2309.08042

在这里插入图片描述
众包平台提供了大量包含有价值建筑信息的街景图像。这项工作解决了应用场景文本识别（STR）在众包街景图像的建筑属性映射的挑战。我们使用Flickr图像，特别是检查建筑物立面的文本。创建柏林Flickr数据集，并使用预训练的STR模型进行文本检测和识别。STR识别图像的子集上的手动检查显示出高精度。我们研究了STR结果和建筑功能之间的相关性，并分析了文本被认可的住宅建筑，但不是商业建筑的情况。进一步的调查揭示了与这项任务相关的重大挑战，包括街景图像中的小文本区域，地面真相标签的缺乏，以及Flickr图像中的建筑物和OpenStreetMap（OSM）中的建筑物足迹的不匹配。为了开发城市热点位置以外的城市范围的地图，我们建议区分STR证明有效的情况，同时开发适当的算法或带来额外的数据处理其他情况。此外，应进行跨学科合作，以了解建筑摄影和标签背后的动机。STR-on-Flickr结果可在https://github.com/ya0-sun/STR-Berlin上公开获取。

1.7 Temporal-aware Hierarchical Mask Classification for Video Semantic Segmentation

用于视频语义分割的时态感知分层掩码分类

https://arxiv.org/abs/2309.08020

在这里插入图片描述
现代方法已经证明了将语义分割作为掩模分类任务的巨大潜力，该掩模分类任务广泛用于实例级分割。该范例通过常规的一对一匹配将对象查询的一部分分配给地面实况来训练模型。然而，我们观察到，流行的视频语义分割（VSS）数据集每个视频的类别有限，这意味着不到10%的查询可以匹配在VSS训练期间接收有意义的梯度更新。因此，我们提出了一种新的解决方案THE-Mask的VSS，它首次引入了时间感知层次对象查询。具体来说，我们建议使用一个简单的两轮匹配机制，涉及更多的查询匹配最小的成本在训练过程中，而在推理过程中没有任何额外的成本。为了支持我们的多对一分配，在匹配结果方面，我们进一步设计了一个层次损失来训练查询，其对应的层次结构是初级或次级。此外，为了有效地捕获跨帧的时间信息，我们提出了一个时间聚合解码器，无缝地适合到VSS的掩码分类范例。利用时间敏感的多级查询，我们的方法实现了最新的具有挑战性的VSS基准VSPW没有花里胡哨的国家的最先进的性能。

1.8 MIML: Multiplex Image Machine Learning for High Precision Cell Classification via Mechanical Traits within Microfluidic Systems

MIML：利用微流控系统中的机械特性进行高精度细胞分类的多重图像机器学习

https://arxiv.org/abs/2309.08421

在这里插入图片描述

无标记细胞分类有利于提供原始细胞以供进一步使用或检查，然而现有技术在特异性和速度方面经常不足。在这项研究中，我们通过开发一个新的机器学习框架，多重图像机器学习（MIML）来解决这些限制。这种架构独特地将无标记细胞图像与生物力学特性数据相结合，利用每个细胞固有的巨大的、通常未充分利用的形态学信息。通过整合这两种类型的数据，我们的模型利用传统机器学习模型中通常丢弃的形态信息，提供了对细胞特性的更全面的理解。这种方法导致了一个显着的98.3%的准确率细胞分类，一个实质性的改进模型，只考虑一个单一的数据类型。MIML已被证明在白细胞和肿瘤细胞分类方面是有效的，由于其固有的灵活性和迁移学习能力，具有更广泛的应用潜力。它对具有相似形态但不同生物力学特性的细胞特别有效。这种创新的方法在各个领域都有重要的意义，从推进疾病诊断到理解细胞行为。

【计算机视觉 | 图像分类】arxiv 计算机视觉关于图像分类的学术速递（9 月 18 日论文合集）