【CVPR2022】X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval
【组会讲解链接】
https://zhuanlan.zhihu.com/p/608289445
【心得体会】
本文主要是对视频进行处理,但本文提出的工作也可以尝试运用到高光谱图像的处理中。
【ARXIV2301】Enhancing Medical Image Segmentation with TransCeption: A Multi-Scale Feature Fusion Approach
【组会讲解链接】
https://zhuanlan.zhihu.com/p/607135861
【心得体会】
本文是一篇通过多尺度来改进Transformer的医学图像领域的文章,在深度学习与多学科交叉应用的场景中,需要针对场景的特点来改进网络结构,准确率和效率都要考虑到。
【WACV2023】HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation
【本文贡献】
提出了一种新的混合方法,融合了Transformer的远程上下文交互和CNN的局部语义信息。
设计了一种DLF模块,可以在粗粒度和细粒度特征表示之间建立有效的特征融合。
【网络结构】
使用Swin transformer模块和基于CNN的encoder设计了两种多尺度特征表示,为了确保全局和局部特征的精细融合,在encoder-decoder结构的跳转连接部分中添加了了DLF模块。
(b)展示的是DLF模块中的Cross Attention结构,小级别的类标记CLSs首先被用于维度对齐,然后追加到pl,结果嵌入作为k和v,然后再利用CLS进行查询,最后计算注意力和反投影,得到Zs,这个过程也可以扩展到更大的尺度。
【心得体会】
当网络中的特征来自多个level,如本文的CNN级别和Transformer级别时,需要注意这些特征的合理融合,保证特征的一致性。
【MIDL2022】Semi-Supervised Medical Image Segmentation via Cross Teaching between CNN and Transformer
【本文贡献】
提出了一种简单有效的半监督医学图像分割cross teaching scheme。
【网络结构】
【心得体会】
CNN可以有效地捕捉局部特征,Transformer可以更好地建模长期关系,这些特征和关系在训练过程中可以相互补充。
【ARXIV2212】 CiaoSR: Continuous Implicit Attention-in-Attention Network for Arbitrary-Scale Image Super-Resolution
【本文贡献】
提出了一种用于任意尺度图像超分辨率的连续隐性注意网络CiaoSR,该网络具有以下优势:
可以显式地学习集成权重并能利用尺度感知的非局部信息
可以灵活地集成到任何主干中,支持任意比例的图像超分辨率,并能提高图像超分辨率的性能
在尺度内和尺度外分布上都具有良好的泛化能力
【网络结构】
该网络的大致结构是注意力里嵌套一个注意力,外层的注意力是Implicit Attention,主要用于提取查询点对应的局部位置的信息,内层的注意力是Scale-aware Attention,用于提取非局部位置的信息,因此该网络具有更大的感受野。
除此之外,在计算外层注意力的k和v时,还加入了对应的坐标距离,做到了既考虑坐标距离又考虑特征距离。
网络名字中的Continuous是指该网络在训练时使用的是连续的尺度,实验也表明使用连续的尺度训练比使用离散尺度训练效果好。
【心得体会】
注意力套注意力的结构比较新颖,并且具备充足的理论依据,但在保证质量的时候,计算量也会变大,后续的工作可以从计算量方面入手改进。
【ICLR2023】Embedding Fourier for Ultra-High-Definition Low-Light Image Enhancement
【本文贡献】
本文在低光噪声图像的傅里叶域中观察到了两个现象:
亮度和噪声在傅里叶域中可以在一定程度上分解,亮度表现为振幅,噪声与相位密切相关。
不同分辨率图像的振幅模式相似。
根据以上现象,本文提出了基于傅里叶变换的图像增强方法UHDFour,在傅里叶域中分别处理亮度和噪声,避免了在增强亮度时放大噪声,并且由于不同分辨率图像的振幅模式相似,可以先在低分辨率区域进行处理,只在高分辨率范围内进行必要的调整,从而节省计算量。
【网络结构】
【心得体会】
进行图像修复工作时,在像素域进行处理的同时,也可以考虑频率域的处理。