VALSE2021 会议笔记

大会主旨报告

1.如何突破机器学习的先验假设?

报告人:徐宗本(西安交通大学、琶洲实验室)
报告题目:如何突破机器学习的先验假设?

我们正在从一个调参的时代,走向一个设计的时代。
机器学习就是从数据中寻找规律,并进行预测的过程。
机器学习的假设,正在从数学化、形式化,走向科学化。

突破假设——使假设变为科学
数学不是你喜欢不喜欢的问题,而是你永远无法回避的问题。

什么是机器学习的假设?有5个方面:

- 要素 假设 突破
1 optim 优化的假设(可以评估) 引入正则化
2 hypothetical space 假设空间的大容量假设(一定包含解) 引入半监督/无监督学习
3 loss function loss function 的独立性(与问题本身无关) 不可为非凸函数
4 data 数据的完备性(足以刻画数据本身) 机器学习的自动化
5 regularization 正则项的先验决定论(充足的先验知识) 范数

2.模式识别:从分类到理解

报告人:刘成林(中国科学院自动化研究所)
报告题目:模式识别:从分类到理解

模式理解:

  1. 传统结构方法:可解释但是学习难度大
  2. 结合DNN方法,学习简单但解释困难
  3. 结构可解释性神经网络

例子:

  • 深度图匹配,算法复杂度 O(n^2)
  • 零样本识别
  • 数学公式识别(GCN)
  • 图像文本匹配

趋势分析:

  1. 统计模型+结构模型
  2. 可解释性神经网络
  3. 类人记忆,学习方法的突破

大会特邀报告

1.多神经环路协同的类脑学习与计算架构探索

报告人:唐华锦(浙江大学)
报告题目:多神经环路协同的类脑学习与计算架构探索

类脑计算?(没有听懂)

  • 神经元学习:low level -> high level
  • 人脑:what makes a horse “horse”?

三大驱动:数据 算法 算力

2.动态神经网络研究进展与展望

报告人:黄高(清华大学)
报告题目:动态神经网络研究进展与展望

动态神经网络:

  • 动态调整网络深度
  • 动态调整网络宽度
  • 动态调整网络参数

还有几篇特邀报告没有听,太困了…

年度进展评述(二)

(一)没有听进去,也没有做笔记…

1.视频分析领域年度进展概述

讲者:杨易(浙江大学)
题目:视频分析领域年度进展概述

提出了APR:一种视频分析的新结构

从2D CNN到2D CNN + multi-frame到3D CNN的发展过程,以及向ViT靠拢的ViViT
从Meteor Net到PST Net到Point RNN,以及提出了Point 4D transformer
提出了新的dataset:webvid,VSPW(2021 CVPR)

confidence distillation

2.分布外(Out-Of-Distribution)泛化

讲者:崔鹏(清华大学)
题目:分布外(Out-Of-Distribution)泛化

提出了面临的新挑战:OOD(Out-Of-Distribution)

4.对抗视觉生成与合成年度进展概述

第3个出去照相错过了…

讲者:谭明奎(华南理工大学)
题目:对抗视觉生成与合成年度进展概述

两种模型:

  1. 判别:CNN SVM
  2. 生成:VAE GAN

VAE将数据编码至一个服从正态分布的空间中,再由decoder解码。

5.迁移学习年度进展

讲者:张磊(重庆大学)
题目:迁移学习年度进展

Fine-tune is all you need
(致敬是吧…?)

2014年提出的知识蒸馏,从大规模网络中提取先验知识(暗知识),对小网络进行调优,从而减小网络规模。

提出取代熵最小的理论(没太懂,笔记也只记了这一句)

Poster论文交流

几篇比较有趣(脑洞大)的已经上传了QQ空间相册,感觉以下几个方面比较多:

  • re-identification:行人重识别(视频序列中寻找特定人物)
  • de-rain:去雨,今天跟导师聊天,发现这个的最大特点在于理论上找不到参考图像(同时间同地点的无雨图片)
  • 3D point cloud:不太熟悉的领域,但论文很多
  • 视频方面:可能图像语音文字都被玩得太多了
  • 2篇IQA:因为是自己的领域,所以都认真看了看
    • 通过剪枝将前一层网络学习到的再次运用,并不断迭代优化,指标不高但贵在思路
    • 通过GAN生成伪参考图像,只是增加了不同的“流”,对融合信息进行后续操作
  • 半监督/弱监督/无监督:很多都带有这些字样
  • few shot/one shot/zero shot
  • HR较多,HSI较少
  • 最后就使脑洞特别大的,无法总结,有时间再去看看那些题目

Tutorial

1.可解释学习

讲者:崔鹏 (清华大学)
题目:因果启发的稳定学习理论、方法和应用

因果性的解释:
搞懂人的脑回路因果,推荐系统的能力up up~

从因果出发,可以解决OOD、Explanation,这2者关系密切

Stable Net:From linear to deep models
(RFF 随机傅里叶特征)

2.transformer

(大概是听得最认真的一个)

讲者:王云鹤 (华为)
题目:Transformer/Self-attention Modeling in Computer Vision

主要工作是基于2020.10的ViT——

(1) TNT:transformer in transformer(对比DeiT,待了解

related work 缺陷:没有局部的2D信息
改进:将图像在patch的时候划分不同尺度

  • 3x3:可类比为视觉句子
  • 取以上一块,再划分3x3:可类比为视觉单词
  • 重复以上,低层次的也通过较小的transformer,即TNT

TNT的2种level的encoding都重要,即position encoding的作用不能忽视

(2)无CNN的纯transformer

related work 缺陷:如题
改进:结合CNN的CMT,能够在数据量大的时候表现更好

(3)无CNN的纯transformer

IPT:通过多任务(de-rain、de-noise、HR等)进行底层视觉的预训练,使其在低质量/无监督/弱监督 的条件下可以生成高质量图像

大规模数据预训练的好处:

  • 之前是不同任务不同算法
  • 现在可以追求所有任务使用同一个算法
(4)DNN压缩

使其能够从服务器走向移动端

(5)PS-ViT
  • 原因:网络庞大,需要去掉冗余的patch(对于分类识别)
  • 方案:将binary mask加上去

为什么CNN的剪枝策略不可用于ViT?
发现随着layer的增加,不同patch之间的相似度越来越高,所以有必要进行去patch,即网络深度增加,patch个数减少。

(6)PTQ

ViT训练后如何量化?(不懂)
迭代思想
DeiT的知识蒸馏,没有CNN的效果好

(7)基于流形学习的ViT

为防止feature collapse(深层次的patch之间相似度高,见上条),提出Aug-ViT,通过shortcut进行即插即用的操作,通过MLP与MSA的前后跳跃连接实现

(8)future work

使用加法代替乘法(没有理解) -> Adder-ViT,为硬件减压,因为transformer本身也很大

因为演讲者拉了群并且将ppt共享,所以笔记结构与细节可能有误,具体请看ppt

Workshop

1.目标检测与识别

(1)视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案

讲者:张兆翔 (中国科学院自动化研究所)
题目:视觉目标检测大模型GAIA:面向行业的视觉物体检测一站式解决方案

之前都是孤立式目标检测,存在任务难定制、模型难调整的问题;而GAIA通过大模型、大数据、大算力,为下游任务自动匹配模型

(2)Vision Transformer for Object Detection and Scene Segmentation

(也是听得很认真的一个)

讲者:罗平 (香港大学)
题目:Vision Transformer for Object Detection and Scene Segmentation

从ViT到swin到PVT——

PVT v1:
(个人观点:受HR Net影响)提出了4个stage的不同层级特征去改进transformer,从1/4到1/32的独立patch;使用特征金字塔,并且优化了QKV的计算量。

PVT v2:
拥有Dwconv(可能记错了,还未查),基于transformer拥有更多的功能;
值得一提的是,Segformer就是基于PVT v2进行设计的,拥有比Deeplabv3plus更大的感受野。

在物体检测方面,提出了Sparse-RCNN:之前的物体检测主要依靠MNS的后处理,这里抛弃。是基于PVT v1进行设计的,比DETR优秀。

在动作检测方面,提出了WOO(watch only once):融合了2D与3D的时序优势与定位优势,较为全能。

2.深度模型架构

讲者:黄雷 (北京航空航天大学)
题目:Towards understanding normalization techniques in model training and representation

模型初始化的方法:
从2006的简单initial到2015年的BN
激活与梯度爆炸等

可以回去关注一下model.apply(),经常在代码中看到,却没有使用,可能是被我忽略的一点

其他的有点没懂,好多数学…

3.Transformer and Attention for Vision

(不得不说ViT是真的火…)

讲者:代季峰 (商汤)
题目:Deformable DETR: Deformable Transformers for End-to-End Object Detection

提出了DETR存在的问题:

  • transformer本身的局限性,计算复杂度为O(n^2)
  • 训练速度慢

然后从deformable convolution获取启发,将其拓展到注意力上面,提出了deformable attention

4.机器学习前沿进展

讲者:宋明黎 (浙江大学、之江实验室)
题目:视觉深度模型炼知技术

现在的趋势确实在偏向算法落地,所以才有很多相应的研究,炼知包含:

  • 知识蒸馏
  • 知识组合
  • 知识距离

讲者:孟德宇 (西安交通大学)
题目:元学习的思想方法概述

元学习一直很吸引我,相当于是学会学习,具体的实现与数学较为复杂我也不是很理解,大致意思就是避免:“人工智能=人工+智能”的情况出现。

猜你喜欢

转载自blog.csdn.net/qq_45510888/article/details/120730259