VALSE2021 会议笔记

大会主旨报告

1.如何突破机器学习的先验假设？

报告人：徐宗本（西安交通大学、琶洲实验室）
报告题目：如何突破机器学习的先验假设？

我们正在从一个调参的时代，走向一个设计的时代。
机器学习就是从数据中寻找规律，并进行预测的过程。
机器学习的假设，正在从数学化、形式化，走向科学化。

突破假设——使假设变为科学
数学不是你喜欢不喜欢的问题，而是你永远无法回避的问题。

什么是机器学习的假设？有5个方面：

-	要素	假设	突破
1	optim	优化的假设（可以评估）	引入正则化
2	hypothetical space	假设空间的大容量假设（一定包含解）	引入半监督/无监督学习
3	loss function	loss function 的独立性（与问题本身无关）	不可为非凸函数
4	data	数据的完备性（足以刻画数据本身）	机器学习的自动化
5	regularization	正则项的先验决定论（充足的先验知识）	范数

2.模式识别：从分类到理解

报告人：刘成林（中国科学院自动化研究所）
报告题目：模式识别：从分类到理解

模式理解：

传统结构方法：可解释但是学习难度大
结合DNN方法，学习简单但解释困难
结构可解释性神经网络

例子：

深度图匹配，算法复杂度 O(n^2)
零样本识别
数学公式识别（GCN）
图像文本匹配

趋势分析：

统计模型+结构模型
可解释性神经网络
类人记忆，学习方法的突破

大会特邀报告

1.多神经环路协同的类脑学习与计算架构探索

报告人：唐华锦（浙江大学）
报告题目：多神经环路协同的类脑学习与计算架构探索

类脑计算？（没有听懂）

神经元学习：low level -> high level
人脑：what makes a horse “horse”？

三大驱动：数据算法算力

2.动态神经网络研究进展与展望

报告人：黄高（清华大学）
报告题目：动态神经网络研究进展与展望

动态神经网络：

动态调整网络深度
动态调整网络宽度
动态调整网络参数

还有几篇特邀报告没有听，太困了…

年度进展评述（二）

（一）没有听进去，也没有做笔记…

1.视频分析领域年度进展概述

讲者：杨易（浙江大学）
题目：视频分析领域年度进展概述

提出了APR：一种视频分析的新结构

从2D CNN到2D CNN + multi-frame到3D CNN的发展过程，以及向ViT靠拢的ViViT
从Meteor Net到PST Net到Point RNN，以及提出了Point 4D transformer
提出了新的dataset：webvid，VSPW（2021 CVPR）

confidence distillation

2.分布外(Out-Of-Distribution)泛化

讲者：崔鹏（清华大学）
题目：分布外(Out-Of-Distribution)泛化

提出了面临的新挑战：OOD（Out-Of-Distribution）

4.对抗视觉生成与合成年度进展概述

第3个出去照相错过了…

讲者：谭明奎（华南理工大学）
题目：对抗视觉生成与合成年度进展概述

两种模型：

判别：CNN SVM
生成：VAE GAN

VAE将数据编码至一个服从正态分布的空间中，再由decoder解码。

5.迁移学习年度进展

讲者：张磊（重庆大学）
题目：迁移学习年度进展

Fine-tune is all you need
(致敬是吧…？)

2014年提出的知识蒸馏，从大规模网络中提取先验知识（暗知识），对小网络进行调优，从而减小网络规模。

提出取代熵最小的理论（没太懂，笔记也只记了这一句）

Poster论文交流

几篇比较有趣（脑洞大）的已经上传了QQ空间相册，感觉以下几个方面比较多：

re-identification：行人重识别（视频序列中寻找特定人物）
de-rain：去雨，今天跟导师聊天，发现这个的最大特点在于理论上找不到参考图像（同时间同地点的无雨图片）
3D point cloud：不太熟悉的领域，但论文很多
视频方面：可能图像语音文字都被玩得太多了
2篇IQA：因为是自己的领域，所以都认真看了看
- 通过剪枝将前一层网络学习到的再次运用，并不断迭代优化，指标不高但贵在思路
- 通过GAN生成伪参考图像，只是增加了不同的“流”，对融合信息进行后续操作
半监督/弱监督/无监督：很多都带有这些字样
few shot/one shot/zero shot
HR较多，HSI较少
最后就使脑洞特别大的，无法总结，有时间再去看看那些题目

Tutorial

1.可解释学习

讲者：崔鹏（清华大学）
题目：因果启发的稳定学习理论、方法和应用

因果性的解释：
搞懂人的脑回路因果，推荐系统的能力up up~

从因果出发，可以解决OOD、Explanation，这2者关系密切

Stable Net：From linear to deep models
（RFF 随机傅里叶特征）

2.transformer

（大概是听得最认真的一个）

讲者：王云鹤（华为）
题目：Transformer/Self-attention Modeling in Computer Vision

主要工作是基于2020.10的ViT——

（1） TNT：transformer in transformer（对比DeiT，待了解）

related work 缺陷：没有局部的2D信息
改进：将图像在patch的时候划分不同尺度

3x3：可类比为视觉句子
取以上一块，再划分3x3：可类比为视觉单词
重复以上，低层次的也通过较小的transformer，即TNT

TNT的2种level的encoding都重要，即position encoding的作用不能忽视

（2）无CNN的纯transformer

related work 缺陷：如题
改进：结合CNN的CMT，能够在数据量大的时候表现更好

（3）无CNN的纯transformer

IPT：通过多任务（de-rain、de-noise、HR等）进行底层视觉的预训练，使其在低质量/无监督/弱监督的条件下可以生成高质量图像

大规模数据预训练的好处：

之前是不同任务不同算法
现在可以追求所有任务使用同一个算法

（4）DNN压缩

使其能够从服务器走向移动端

（5）PS-ViT

原因：网络庞大，需要去掉冗余的patch（对于分类识别）
方案：将binary mask加上去

为什么CNN的剪枝策略不可用于ViT？
发现随着layer的增加，不同patch之间的相似度越来越高，所以有必要进行去patch，即网络深度增加，patch个数减少。

（6）PTQ

ViT训练后如何量化？（不懂）
迭代思想
DeiT的知识蒸馏，没有CNN的效果好

（7）基于流形学习的ViT

为防止feature collapse（深层次的patch之间相似度高，见上条），提出Aug-ViT，通过shortcut进行即插即用的操作，通过MLP与MSA的前后跳跃连接实现

（8）future work

使用加法代替乘法（没有理解） -> Adder-ViT，为硬件减压，因为transformer本身也很大

因为演讲者拉了群并且将ppt共享，所以笔记结构与细节可能有误，具体请看ppt

Workshop

1.目标检测与识别

（1）视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案

讲者：张兆翔（中国科学院自动化研究所）
题目：视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案

之前都是孤立式目标检测，存在任务难定制、模型难调整的问题；而GAIA通过大模型、大数据、大算力，为下游任务自动匹配模型

（2）Vision Transformer for Object Detection and Scene Segmentation

（也是听得很认真的一个）

讲者：罗平（香港大学）
题目：Vision Transformer for Object Detection and Scene Segmentation

从ViT到swin到PVT——

PVT v1：
（个人观点：受HR Net影响）提出了4个stage的不同层级特征去改进transformer，从1/4到1/32的独立patch；使用特征金字塔，并且优化了QKV的计算量。

PVT v2:
拥有Dwconv（可能记错了，还未查），基于transformer拥有更多的功能；
值得一提的是，Segformer就是基于PVT v2进行设计的，拥有比Deeplabv3plus更大的感受野。

在物体检测方面，提出了Sparse-RCNN：之前的物体检测主要依靠MNS的后处理，这里抛弃。是基于PVT v1进行设计的，比DETR优秀。

在动作检测方面，提出了WOO（watch only once）：融合了2D与3D的时序优势与定位优势，较为全能。

2.深度模型架构

讲者：黄雷（北京航空航天大学）
题目：Towards understanding normalization techniques in model training and representation

模型初始化的方法：
从2006的简单initial到2015年的BN
激活与梯度爆炸等

可以回去关注一下model.apply()，经常在代码中看到，却没有使用，可能是被我忽略的一点

其他的有点没懂，好多数学…

3.Transformer and Attention for Vision

（不得不说ViT是真的火…）

讲者：代季峰（商汤）
题目：Deformable DETR: Deformable Transformers for End-to-End Object Detection

提出了DETR存在的问题：

transformer本身的局限性，计算复杂度为O(n^2)
训练速度慢

然后从deformable convolution获取启发，将其拓展到注意力上面，提出了deformable attention

4.机器学习前沿进展

讲者：宋明黎（浙江大学、之江实验室）
题目：视觉深度模型炼知技术

现在的趋势确实在偏向算法落地，所以才有很多相应的研究，炼知包含：

知识蒸馏
知识组合
知识距离

讲者：孟德宇（西安交通大学）
题目：元学习的思想方法概述

元学习一直很吸引我，相当于是学会学习，具体的实现与数学较为复杂我也不是很理解，大致意思就是避免：“人工智能=人工+智能”的情况出现。