人群密度统计网络思路笔记

1、CNN-based Cascaded Multi-task Learning of High-level Prior and Density Estimation for Crowd Counting

Two sub tasks: crowd count classification and density map estimation，First stage learning high level prior ，Second stage preforming density map estimation。即上层为人头数分类，下层输出密度图

2、Cross-scene Crowd Counting via Deep Convolutional Neural Networks

3个卷积层 3个全连接层。第一个卷积层有 32个 7×7×3 滤波器，第二个卷积层 32个 7×7×32 滤波器，第三个卷积层有64个 5 × 5 × 32 滤波器。第一第二卷积层后面各用一个 2 × 2 最大池化，卷积和全连接层都使用 Rectified linear unit (ReLU) 激活响应函数。交替优化密度图估计任务和人数估计任务

3、CrowdNet: A Deep Convolutional Network for Dense Crowd Counting

似乎两个网络分支最后融合，一个尺度小的卷积核一个尺度大的卷积核，多层小的卷积核不是能等同于大的卷积核？

4、Highly Congested Scenes Single-Image Crowd Counting via Multi-Column Convolutional Neural Network

MCNN网络的每一列并行的子网络深度相同，但是滤波器的大小不同（大，中，小），因此每一列子网络的感受野不同，能够抓住不同大小人头的特征，最后将三列子网络的特征图做线性加权（由1x1的卷积完成）得到该图像的人群密度图，类似模型融合的思想。采用了2*2的max-pooling和ReLU激活函数。（注意，因为这里用到了两次max-pooling，所以需要先对训练样本也缩小到1/4，再生成对应的密度图ground truth）。使用基于几何适应高斯核的密度图

5、Switching Convolutional Neural Network for Crowd Counting

针对人群密度估计问题提出了一个 Switch-CNN网络，大的思路就是根据图像块的内容信息来选择合适的CNN网络进行人群密度估计。首先将图像分成3*3=9 个图像块，然后使用一个 CNN网络对每个图像块进行分类，看它适合使用哪个CNN网络来进行密度估计，这里提供了3个CNN网络来进行密度估计

6、DecideNet: Counting Varying Density Crowds Through Attention Guided Detection and Density Estimation

整体网络：

Detect：

将 Faster-RCNN 应用到人头检测，在网络后面加了一个 Gaussian convolutional layer 将检测框转为密度图

Destiny：

Attention：

有两个密度图，如何将这两个密度图融合起来了？这里使用一个小网络来学习这个权重系数

在人群密度小的时候，基于检测的方法效果更好。在人群密度较大的时候，基于回归方法的效果比较好。

7、Crowd counting via scale-adaptive convolutional neural network

整体网络：

We build a single backbone network with a single filter size. We combine the feature maps of multiple layers to adapt the network to the changes in pedestrian scale and perspective. Multi-scale layers share the same low-level parameters and feature representa- tions, which results in fewer parameters, fewer training data required, and faster training. We introduce two loss functions to jointly optimize the model: one is density map loss, the other is relative count loss. The relative count loss helps to reduce the variance of the prediction errors and improve the network generalization on very sparse crowd scenes.

提出一个自使用网络，端到端，单一尺寸3*3卷积核

8、Learning a perspective-embedded deconvolution network for crowd counting

网络的输入是 RGB，基于语义分割框架 FCN的 baseline model，加了两个卷积层 conv5 with 5 × 5和conv6 with 7 × 7，加入Perspective进行视角矫正。

9、Generating High-Quality Crowd Density Maps using Contextual Pyramid CNNs

对于以前各种方法分析，我们认为有以下几点问题：

1）这些方法都没有显示的嵌入 context 信息，而 context 信息对提升性能很有帮助

2）当前基于回归的密度图估计方法更侧重降低人群总数估计误差，而不是侧重人群密度图的质量

3）当前的 CNN 网络基本都是使用像素级欧式损失函数来训练网络，这导致密度图比较模糊

使用GCE和LCE融合global和local的context信息，两者和DME进行融合并进一步处理。DMP获得高清密度图，F-CNN 综合GCE 、LCE 、 DME的结果；

Global context基于VGG，将整体图像输出成不同图像密度等级

将 global context 和图像的密度等级联系起来，这里我们将图像人群密度等级分为五类：extremely low-density (ex-lo), low-density (lo), medium-density (med), high-density (hi) and extremely high-density (ex-hi)

当然具体分多少类这个和数据库密度变化范围有关，但是我们发现仅适用五类就可以明显提升密度图估计效果

Local context，将图像小块输出成不同等级的密度图，这样就包含了local ontext信息。我们相信 some kind of local contextual information 能够帮助我们提升密度图质量。和 GCE 思路类似，使用一个 CNN网络将图像根据其人群密度分为5类， {ex-lo, lo,med, hi, ex-hi}