Yolov8创新:交通信号roadsign识别,通过加入CVPR203 DCNV3和BiLevelRoutingAttention,暴力涨点

 目录

1.roadsign数据集介绍

 2.基于YOLOV8的roadsign识别

2.1 原始yolov8性能分析

2.1  加入DCNV3

 2.2 BiLevelRoutingAttention

2.3 DCNV3+ BiLevelRoutingAttention

3.总结


1.roadsign数据集介绍

数据集大小:877张

类别:speedlimit、crosswalk、trafficlight、stop

 2.基于YOLOV8的roadsign识别

2.1 原始yolov8性能分析

原始map为0.841

 

 

2.1  加入DCNV3

论文:https://arxiv.org/abs/2211.05778

      不同于近来聚焦于大核的CNN方案,InternImage以形变卷积作为核心操作(不仅具有下游任务所需的有效感受野,同时具有输入与任务自适应空域聚合能力)。所提方案降低了传统CNN的严格归纳偏置,同时可以学习更强更鲁棒的表达能力。ImageNet、COCO以及ADE20K等任务上的实验验证了所提方案的有效性,值得一提的是:InternImage-H在COCO test-dev上取得了新的记录65.4mAP。 

InternImage通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置,包括(1)DCNv3算子,基于DCNv2算子引入共享投射权重、多组机制和采样点调制。

(2)基础模块,融合先进模块作为模型构建的基本模块单元

(3)模块堆叠规则,扩展模型时规范化模型的宽度、深度、组数等超参数。

研究者基于DCNv2算子,重新设计调整并提出DCNv3算子,具体改进包括以下几个部分。

(1) 共享投射权重。与常规卷积类似,DCNv2中的不同采样点具有独立的投射权重,因此其参数大小与采样点总数呈线性关系。为了降低参数和内存复杂度,借鉴可分离卷积的思路,采用与位置无关的权重代替分组权重,在不同采样点之间共享投影权重,所有的采样位置依赖性都得以保留。

(2) 引入多组机制。多组设计最早是在分组卷积中引入,并在Transformer的多头自注意力中广泛使用,它可以与自适应空间聚合配合,有效地提高特征的多样性。受此启发,研究者将空间聚合过程分成若干组,每个组都有独立的采样偏移量。自此,单个DCNv3层的不同组拥有不同的空间聚合模式,从而产生丰富的特征多样性。

(3) 采样点调制标量归一化。为了缓解模型容量扩大时的不稳定问题,研究者将归一化模式设定为逐采样点的Softmax归一化,这不仅使大规模模型的训练过程更加稳定,而且还构建了所有采样点的连接关系。

 

博客地址:

涨点神器:Yolov8引入CVPR2023 InternImage:注入新机制,扩展DCNv3,助力涨点,COCO新纪录65.4mAP!_AI小怪兽的博客-CSDN博客

map从0.841提升至0.881

 2.2 BiLevelRoutingAttention

 

本文方法:本文提出一种动态稀疏注意力的双层路由方法。对于一个查询,首先在粗略的区域级别上过滤掉不相关的键值对,然后在剩余候选区域(即路由区域)的并集中应用细粒度的令牌对令牌关注力。所提出的双层路由注意力具有简单而有效的实现方式,利用稀疏性来节省计算和内存,只涉及GPU友好的密集矩阵乘法。在此基础上构建了一种新的通用Vision Transformer,称为BiFormer。

 其中图(a)是原始的注意力实现,其直接在全局范围内操作,导致高计算复杂性和大量内存占用;而对于图(b)-(d),这些方法通过引入具有不同手工模式的稀疏注意力来减轻复杂性,例如局部窗口、轴向条纹和扩张窗口等;而图(e)则是基于可变形注意力通过不规则网格来实现图像自适应稀疏性;作者认为以上这些方法大都是通过将 手工制作 和 与内容无关 的稀疏性引入到注意力机制来试图缓解这个问题。因此,本文通过双层路由(bi-level routing)提出了一种新颖的动态稀疏注意力(dynamic sparse attention ),以实现更灵活的计算分配内容感知,使其具备动态的查询感知稀疏性,如图(f)所示。

基于BRA模块,本文构建了一种新颖的通用视觉转换器BiFormer。如上图所示,其遵循大多数的vision transformer架构设计,也是采用四级金字塔结构,即下采样32倍。

博客地址:https://cv2023.blog.csdn.net/article/details/130260561

map从0.841提升至0.873

2.3 DCNV3+ BiLevelRoutingAttention

map从0.841提升至0.903

3.总结

通过加入cvpr2023中的DCNV3和BiLevelRoutingAttention来提升检测精度,最终map从0.841提升至0.903,涨点效果明显且创新程度较高,能够发论文级别;

源码获取:Yolov8实战:交通信号roadsign识别,通过加入CVPR203 DCNV3和BiLevelRoutingAttention,暴力涨点_AI小怪兽的博客-CSDN博客

猜你喜欢

转载自blog.csdn.net/m0_63774211/article/details/132995634