Multi-label Image Recognition by Recurrently Discovering Attentional Regions（阅读笔记简略） - 代码天地

Multi-label Image Recognition by Recurrently Discovering Attentional Regions（阅读笔记简略）

企业开发 2023-04-09 02:00:58 阅读次数: 0

论文摘要

这部分从博客文章Multi-label Image Recognition by Recurrently Discovering Attentional Regions中摘抄而来

论文拟解决问题：使用一种新的深度神经网络结构实现多标签的图像识别任务；
传统方法及其缺陷：传统多标签分类器往往需要预测候选区域（region proposal），这种方法往往会造成额外开销，性能也难以达到最好；
本文的主要工作：本文中实现了一个具有可解释性且能获得图像语义信息的多标签图像分类器，该分类器的主要模块由两部分组成：一个空间转换器（spatial transformer layer）在特征层中定位感兴趣区域（这里用attentional regions表示）；一个LSTM层用于计算这些regions之间的依赖关系，并且按顺序输出各个regions标签预测分数，同时LSTM还可以输出用于计算空间转换器的相关参数。
实验结果：在多标签的大型数据集（MS-COCO和PASCAL VOC 2007）上，本文提出的网络结构在准确率和运行效率都优于现有的其他先进分类器。

模型结构

在这里插入图片描述

文献整理

主要参考博客文章：Multi-label Image Recognition by Recurrently Discovering Attentional Regions
论文原文：《Multi-label Image Recognition by Recurrently Discovering Attentional Regions》
文章的核心是使用了两个模块：(1)空间转换网络；(2)LSTM.
这两部分的参考文献分别为：
(1) 空间转换网络——Spatial Transformer Networks（论文笔记）
(2) 知乎—《RNN - LSTM - GRU》

问题记录

ST模块中的变换矩阵M只能够对特征图进行缩放、平移等仿射变换，如何得到图像中的注意力区域并裁剪提取出来？
文中提到，LSTM有两个输出，一个是注意力区域的分类分布，一个是用于更新变换矩阵M的参数。这两个输出和LSTM结构如何对应?
根据文中图示，每次迭代都对待分类图片中每一目标进行分类，如何做到迭代次数刚好等于途中待分类目标的个数呢？

猜你喜欢

转载自blog.csdn.net/qq_43673118/article/details/103340809

Multi-label Image Recognition by Recurrently Discovering Attentional Regions（阅读笔记简略）

ICCV 2017 《Multi-label Image Recognition by Recurrently Discovering Attentional Regions》论文笔记

论文阅读 [TPAMI-2022] Knowledge-Guided Multi-Label Few-Shot Learning for General Image Recognition

【论文阅读】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

Visual Attention Consistency Under Image Transforms for Multi-Label Image Classification论文阅读

Visual Attention Consistency Under Image Transforms for Multi-Label Image Classification论文阅读

Multi-Label Image Recognition with Graph Convolutional Networks【基于图卷积网络的多标签图像识别模型】

论文阅读 Deep Attentional Structured Representation Learning for Visual Recognition

TAN: Temporal Aggregation Network for Dense Multi-label Action Recognition

论文笔记HCP：Single-label to Multi-label

论文阅读笔记 | (ECCV 2018 Oral) Multi-Attention Multi-Class Constraint for Fine-grained Image Recognition

ROAM: Recurrently Optimizing Tracking Model 阅读笔记

[论文理解] Attentional Pooling for Action Recognition

读《Improved Deep Hashing with Soft Pairwise Similarity for Multi-label Image Retrieval》

Deep Residual Learning for Image Recognition（ResNet）阅读

论文阅读1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》

Deep Residual Learning for Image Recognition笔记

Deep Residual Learning for Image Recognition 笔记

《Learning Transferable Architectures for Scalable Image Recognition》论文阅读笔记

论文阅读(二)ResNet(Deep Residual Learning for Image Recognition)笔记

AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks 笔记

「Medical Image Analysis」Note on Deep Attentional Features

Multi-label && Multi-label classification

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（阅读笔记）

论文笔记（二）：Multi-Label Balancing with Selective Learning for Attribute Prediction

论文笔记：FastXML: A Fast, Accurate and Stable Tree-classifier for eXtreme Multi-label Learning

Learning a Deep ConvNet for Multi-label Classification with Partial Labels 论文笔记

论文笔记：Research and Implementation of a Multi-label Learning Algorithm for Chinese Text Classification

论文阅读 (84)：A GAN-based Algorithm for Multi-Instance Multi-Label Learning on Overlapping Signal Wavefo

ResNet论文阅读---《Deep Residual Learning for Image Recognition》

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)