quantization 顶会文章简介 2019

1、SeerNet: Predicting Convolutional Neural Network Feature-Map Sparsity through Low-Bit Quantization
在这里插入图片描述
本文提出了一种利用特征映射稀缺性来加速CNN推断的新的通用方法。实验证明原始网络高度量化的版本足够准确地预测输出稀缺性，且利用这种在推断时的稀缺性会导致与原网络相比必不可少的准确率下降。为了加速推断，对每个卷积层，该方法首先通过在原始网络层的量化版本上运行推断来获得一个输出特征映射的二元稀疏掩码，随后进行一个全精度稀缺卷积来找到非零输出的精确值。

2、Deep Spherical Quantization for Image Search
在这里插入图片描述
使用紧凑离散码编码高维图像的散列方法已被广泛地应用到增强大规模图像恢复上。本文提出了深度球形量化(DSQ)，它是一种使DCNN网络生成用于高效图像搜索的有监督和紧凑二元编码的新方法。作者的方法同时学习将输入图像变换为低维判别空间的映射，以及使用多代码本量化来量化变换数据点。为了去除码本学习上的范数方差的负面影响，作者强制网络对提取的特征进行L2归一化，随后使用新的受监督的量化技术量化结果向量，该量化技术是专门为单位超球面上的点来设计的。

3、Learning to Quantize Deep Networks by Optimizing Quantization Intervals with Task Loss
在这里插入图片描述
减少神经网络激活层的位宽度和权重使得在内存中对其进行计算和存储变得高效，这在将它们部署在资源受限的设备，如智能手机中时很关键。然而，量化导致的降低的位宽通常会导致准确率的急剧下降。为了解决这个问题，作者提出了通过可训练的量化器来尝试学习量化激活层和权重，并对其进行变换和离散化。具体来说，作者首先通过直接最小化网络的任务损失来参数化量化间隔并获得它们的最佳值。这一量化-间隔-学习(QIL)允许量化网络拥有和位宽低至4位的全精度(32位)网络相同的准确率，并通过进一步的位宽降低来最小化准确率下降。不仅如此，该量化器可以在异构数据集上训练，因此可以在无需访问其训练数据的情况下量化预训练网络。

4、End-to-End Supervised Product Quantization for Image Search and Retrieval
在这里插入图片描述
产品量化是一种基于字典的散列方法，且是领先的非监督散列技术之一。虽然它忽略了标签，但它利用特征来构建可以近似特征空间的查找表。最近几年，通过以监督方式学习二进制表征，一些工作已经在散列基准上获得了state-of-art的结果。本文提出了深度产品量化(DPQ)，一种比最新的state-of-art的方法拥有更精确的恢复和分类能力的技术，且在同时与产品量化拥有相近的计算复杂度和内存占用。这是第一个受到产品量化启发的引入基于字典的表征的方法，且通过端对端的方法学习，因此可以受益于受监督的信号。DPQ通过使用直通的估计器来直接地学习软和硬的表征来确保高效和准确的非对称搜索。

5、HAQ: Hardware-Aware Automated Quantization with Mixed Precision
在这里插入图片描述
模型量化是一个被广泛应用的压缩和加速DNN推断的技术。新的DNN硬件加速器开始支持混合精度(1到8位)来进一步提升计算效率，这对为每层寻找最佳的位宽带来了巨大的挑战：它需要领域专家来在巨大的设计空间里平衡准确率、延迟、能量和模型大小，这既花费时间，也不能达到最好的效果。有很多为神经网络专门设计的硬件，但是很少有研究专注于为特定硬件结构做专门的神经网络优化。传统的量化算法忽略了不同的硬件架构，对所有的层使用相同的量化方法。本文提出了硬件感知自动量化(HAQ)框架，它利用增强学习来自动地确定量化策略，并在设计循环中采用硬件加速器的反馈。作者采用硬件模拟器来生成RL代理的直接的反馈信号(延迟和能量)，而不是依赖于如FLOP和模型大小这样的代理信号。与传统的方法相比，作者的框架是全自动的，且可以位不同的神经网络和硬件结构定制不同的量化策略。该框架还揭示了在不同的资源限制下(如延迟、能量和模型大小等)，不同的硬件结构(如边缘和云架构)是非常不同的。作者揭示了不同的量化策略的含义，这为神经网络结构设计和硬件结构设计提供了见解。

6、Quantization Networks
在这里插入图片描述
尽管DNN非常的有效，但它们过高的计算要求和内存花费严重地阻碍了它们应用到便携设备上。因此，将全精度神经网络转换为低位宽的整型版本的低位量化方法已经成为一个活跃和有前景的研究课题。目前的方法将网络的低位优化视作一个近似或优化问题。基于近似的方法会面临梯度不匹配问题，而基于优化的方法仅仅适用于量化权重且可能会在训练阶段带来高的计算成本。本文提出了一种简单而统一的通过将权重和激活层量化视作可微分非线性函数的简单方法。量化函数表示为几个sigmoid函数的线性组合，而该sigmoid函数具有可学习的偏置和尺度，且这些可以通过sigmoid函数的陡度的连续放松来以无损和端对端的方法来学习。

7、Co-Evolutionary Compression for Unpaired Image Translation
在这里插入图片描述
生成对抗网络(GAN)以在很多计算机视觉任务中被成功地应用，尤其是图到图的翻译。然而，这些网络中的生成器往往是有着大量参数且具有巨大的计算复杂性的复杂结构。现存的方法主要被设计用来在分类任务里压缩和加速神经网络，但因为它们的目标和训练程序不同，这些方法并不能直接应用于GAN上来进行图像翻译。为此，作者提出了一种新的协同进化方法来同时减少它们的内存使用和FLOP。在实践中，两个图像域的生成器被编码为两个群体且协同优化来迭代地研究最重要的卷积滤波器。用参数的数量、鉴别器感知正则化和循环一致性来计算每个个体的适应度。

8、ACIQ: Analytical Clipping for Integer Quantization of neural networks
在这里插入图片描述
除了大量的计算资源外，CNN还需要大量的内存带宽和存储来用于中间运算。神经网络量化有着在减少中间计算结果方面有着明显的优势，但她经常需要完整的数据集以及花费时间来进行调整，以从量化导致的准确率损失中恢复。本文提出了第一个使用的4位后训练量化方法：它并不涉及训练量化网络(即微调)，也不需要获得整个数据集。它的目标是激活层和权重的量化，并提出了三种互补的在张量级别上最小化量化误差的方法，其中两个包含闭式的解析解。

JachinMa

发布了74 篇原创文章 · 获赞 14 · 访问量 1万+

私信关注

quantization 顶会文章简介 2019

猜你喜欢