大会主旨报告
1.如何突破机器学习的先验假设?
报告人:徐宗本(西安交通大学、琶洲实验室)
报告题目:如何突破机器学习的先验假设?
我们正在从一个调参的时代,走向一个设计的时代。
机器学习就是从数据中寻找规律,并进行预测的过程。
机器学习的假设,正在从数学化、形式化,走向科学化。
突破假设——使假设变为科学
数学不是你喜欢不喜欢的问题,而是你永远无法回避的问题。
什么是机器学习的假设?有5个方面:
- | 要素 | 假设 | 突破 |
---|---|---|---|
1 | optim | 优化的假设(可以评估) | 引入正则化 |
2 | hypothetical space | 假设空间的大容量假设(一定包含解) | 引入半监督/无监督学习 |
3 | loss function | loss function 的独立性(与问题本身无关) | 不可为非凸函数 |
4 | data | 数据的完备性(足以刻画数据本身) | 机器学习的自动化 |
5 | regularization | 正则项的先验决定论(充足的先验知识) | 范数 |
2.模式识别:从分类到理解
报告人:刘成林(中国科学院自动化研究所)
报告题目:模式识别:从分类到理解
模式理解:
- 传统结构方法:可解释但是学习难度大
- 结合DNN方法,学习简单但解释困难
- 结构可解释性神经网络
例子:
- 深度图匹配,算法复杂度 O(n^2)
- 零样本识别
- 数学公式识别(GCN)
- 图像文本匹配
趋势分析:
- 统计模型+结构模型
- 可解释性神经网络
- 类人记忆,学习方法的突破
大会特邀报告
1.多神经环路协同的类脑学习与计算架构探索
报告人:唐华锦(浙江大学)
报告题目:多神经环路协同的类脑学习与计算架构探索
类脑计算?(没有听懂)
- 神经元学习:low level -> high level
- 人脑:what makes a horse “horse”?
三大驱动:数据 算法 算力
2.动态神经网络研究进展与展望
报告人:黄高(清华大学)
报告题目:动态神经网络研究进展与展望
动态神经网络:
- 动态调整网络深度
- 动态调整网络宽度
- 动态调整网络参数
还有几篇特邀报告没有听,太困了…
年度进展评述(二)
(一)没有听进去,也没有做笔记…
1.视频分析领域年度进展概述
讲者:杨易(浙江大学)
题目:视频分析领域年度进展概述
提出了APR:一种视频分析的新结构
从2D CNN到2D CNN + multi-frame到3D CNN的发展过程,以及向ViT靠拢的ViViT
从Meteor Net到PST Net到Point RNN,以及提出了Point 4D transformer
提出了新的dataset:webvid,VSPW(2021 CVPR)
confidence distillation
2.分布外(Out-Of-Distribution)泛化
讲者:崔鹏(清华大学)
题目:分布外(Out-Of-Distribution)泛化
提出了面临的新挑战:OOD(Out-Of-Distribution)
4.对抗视觉生成与合成年度进展概述
第3个出去照相错过了…
讲者:谭明奎(华南理工大学)
题目:对抗视觉生成与合成年度进展概述
两种模型:
- 判别:CNN SVM
- 生成:VAE GAN
VAE将数据编码至一个服从正态分布的空间中,再由decoder解码。
5.迁移学习年度进展
讲者:张磊(重庆大学)
题目:迁移学习年度进展
Fine-tune is all you need
(致敬是吧…?)
2014年提出的知识蒸馏,从大规模网络中提取先验知识(暗知识),对小网络进行调优,从而减小网络规模。
提出取代熵最小的理论(没太懂,笔记也只记了这一句)
Poster论文交流
几篇比较有趣(脑洞大)的已经上传了QQ空间相册,感觉以下几个方面比较多:
- re-identification:行人重识别(视频序列中寻找特定人物)
- de-rain:去雨,今天跟导师聊天,发现这个的最大特点在于理论上找不到参考图像(同时间同地点的无雨图片)
- 3D point cloud:不太熟悉的领域,但论文很多
- 视频方面:可能图像语音文字都被玩得太多了
- 2篇IQA:因为是自己的领域,所以都认真看了看
- 通过剪枝将前一层网络学习到的再次运用,并不断迭代优化,指标不高但贵在思路
- 通过GAN生成伪参考图像,只是增加了不同的“流”,对融合信息进行后续操作
- 半监督/弱监督/无监督:很多都带有这些字样
- few shot/one shot/zero shot
- HR较多,HSI较少
- 最后就使脑洞特别大的,无法总结,有时间再去看看那些题目
Tutorial
1.可解释学习
讲者:崔鹏 (清华大学)
题目:因果启发的稳定学习理论、方法和应用
因果性的解释:
搞懂人的脑回路因果,推荐系统的能力up up~
从因果出发,可以解决OOD、Explanation,这2者关系密切
Stable Net:From linear to deep models
(RFF 随机傅里叶特征)
2.transformer
(大概是听得最认真的一个)
讲者:王云鹤 (华为)
题目:Transformer/Self-attention Modeling in Computer Vision
主要工作是基于2020.10的ViT——
(1) TNT:transformer in transformer(对比DeiT,待了解)
related work 缺陷:没有局部的2D信息
改进:将图像在patch的时候划分不同尺度
- 3x3:可类比为视觉句子
- 取以上一块,再划分3x3:可类比为视觉单词
- 重复以上,低层次的也通过较小的transformer,即TNT
TNT的2种level的encoding都重要,即position encoding的作用不能忽视
(2)无CNN的纯transformer
related work 缺陷:如题
改进:结合CNN的CMT,能够在数据量大的时候表现更好
(3)无CNN的纯transformer
IPT:通过多任务(de-rain、de-noise、HR等)进行底层视觉的预训练,使其在低质量/无监督/弱监督 的条件下可以生成高质量图像
大规模数据预训练的好处:
- 之前是不同任务不同算法
- 现在可以追求所有任务使用同一个算法
(4)DNN压缩
使其能够从服务器走向移动端
(5)PS-ViT
- 原因:网络庞大,需要去掉冗余的patch(对于分类识别)
- 方案:将binary mask加上去
为什么CNN的剪枝策略不可用于ViT?
发现随着layer的增加,不同patch之间的相似度越来越高,所以有必要进行去patch,即网络深度增加,patch个数减少。
(6)PTQ
ViT训练后如何量化?(不懂)
迭代思想
DeiT的知识蒸馏,没有CNN的效果好
(7)基于流形学习的ViT
为防止feature collapse(深层次的patch之间相似度高,见上条),提出Aug-ViT,通过shortcut进行即插即用的操作,通过MLP与MSA的前后跳跃连接实现
(8)future work
使用加法代替乘法(没有理解) -> Adder-ViT,为硬件减压,因为transformer本身也很大
因为演讲者拉了群并且将ppt共享,所以笔记结构与细节可能有误,具体请看ppt
Workshop
1.目标检测与识别
(1)视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案
讲者:张兆翔 (中国科学院自动化研究所)
题目:视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案
之前都是孤立式目标检测,存在任务难定制、模型难调整的问题;而GAIA通过大模型、大数据、大算力,为下游任务自动匹配模型
(2)Vision Transformer for Object Detection and Scene Segmentation
(也是听得很认真的一个)
讲者:罗平 (香港大学)
题目:Vision Transformer for Object Detection and Scene Segmentation
从ViT到swin到PVT——
PVT v1:
(个人观点:受HR Net影响)提出了4个stage的不同层级特征去改进transformer,从1/4到1/32的独立patch;使用特征金字塔,并且优化了QKV的计算量。
PVT v2:
拥有Dwconv(可能记错了,还未查),基于transformer拥有更多的功能;
值得一提的是,Segformer就是基于PVT v2进行设计的,拥有比Deeplabv3plus更大的感受野。
在物体检测方面,提出了Sparse-RCNN:之前的物体检测主要依靠MNS的后处理,这里抛弃。是基于PVT v1进行设计的,比DETR优秀。
在动作检测方面,提出了WOO(watch only once):融合了2D与3D的时序优势与定位优势,较为全能。
2.深度模型架构
讲者:黄雷 (北京航空航天大学)
题目:Towards understanding normalization techniques in model training and representation
模型初始化的方法:
从2006的简单initial到2015年的BN
激活与梯度爆炸等
可以回去关注一下model.apply()
,经常在代码中看到,却没有使用,可能是被我忽略的一点
其他的有点没懂,好多数学…
3.Transformer and Attention for Vision
(不得不说ViT是真的火…)
讲者:代季峰 (商汤)
题目:Deformable DETR: Deformable Transformers for End-to-End Object Detection
提出了DETR存在的问题:
- transformer本身的局限性,计算复杂度为O(n^2)
- 训练速度慢
然后从deformable convolution获取启发,将其拓展到注意力上面,提出了deformable attention
4.机器学习前沿进展
讲者:宋明黎 (浙江大学、之江实验室)
题目:视觉深度模型炼知技术
现在的趋势确实在偏向算法落地,所以才有很多相应的研究,炼知包含:
- 知识蒸馏
- 知识组合
- 知识距离
讲者:孟德宇 (西安交通大学)
题目:元学习的思想方法概述
元学习一直很吸引我,相当于是学会学习,具体的实现与数学较为复杂我也不是很理解,大致意思就是避免:“人工智能=人工+智能”的情况出现。