文章目录

Review：Self-supervised Learning for Text
Self-supervised Learning for Speech
Self-supervised Learning for Image
Concluding Remarks（还有非常非常多的方法..）

pdf | 视频

Review：Self-supervised Learning for Text

在这里插入图片描述

Self-supervised Learning for Speech

少量有标注的数据用来训练：Downstream Model（例如简单的Linear模型），如果有需要，也可以微调整个模型（不是必要的）

在这里插入图片描述

语音版的BERT

在这里插入图片描述

Self-supervised Learning for Image

在这里插入图片描述

self-supervised 超过 supervised，非常有潜力的
在这里插入图片描述

1. Generative Approaches

语音上

在这里插入图片描述

照搬不行，语音和文字还是有性质上的差异，还是要针对语音的特性做一些设计。
举例来说：声音相邻向量往往内容非常接近，假设只是把某个向量盖起来，机器学不到什么东西，因为声音相邻向量往往内容非常接近，机器只要用两边的向量再做个内插，就预测得八九不离十，那self-supervised就学到内插而已。

所以，语音上，要mask一长串的feature，不要一次只mask一个feature，迫使机器去解比较难的问题
在这里插入图片描述

在语音上，你可以做一个不一样的尝试：mask 向量的某几个dimension，这样方法会让机器学到语者（？语义？）的资讯
在这里插入图片描述

GPT系列用在语音上，
不同点：预测够远时间的向量（因为相邻太简单了）
在这里插入图片描述

image上

在这里插入图片描述

2. Predictive Approach（分析Generator的缺点：语音和影响包含很多细节，直接生成很困难）

在这里插入图片描述

这种制造简单的任务让机器去解，借此来学到一些东西的方法有各式各样，千变万化，论文数不胜数
在这里插入图片描述

问题：到底是什么样的小任务可以激发机器的潜能？还没有特别好的答案。需要你需要对声音，影像特性有更多的了解，才能设计出比较好的小游戏给机器来玩。

接下来比较通用的做法：简化生成，让它变成比较简单的东西，再预测
比如Clustering，把复杂向量先变成token，再预测这些符号，比较容易一点
在这里插入图片描述

3. Contrastive Learning（不产生任何东西就做self-supervise learning）

在这里插入图片描述

在这里插入图片描述
怎么知道positive还是negative？（Data Augmentation）

在这里插入图片描述

那问题就变成了怎么做 Data Augmentation？太简单，机器学不到东西，太难，也是不行的。怎么控制Augmentation的程度？看原始论文SimCLR，尝试了各式各样Augmentation的组合，告诉你说怎么做Augmentation最好的。文献上说，random cropping是最有效的

语音上的 SimCLR：Speech SimCLR

另一类：MoCo（多了memory bank 和 momentum encoder），增加了训练的小技巧，让训练可以成功，具体自己看文献
在这里插入图片描述

语音上的Contrastive Learning

在这里插入图片描述

输出的token 是 Discrete（离散的），为什么：1.利用BERT；2.去除了其它杂讯
在这里插入图片描述

在这里插入图片描述

2.0：一起训练（Continuous vs dicrete ？）

在这里插入图片描述
另一个角度理解：Classification vs Contrastive（解释Contrastive为什么可行，其实也是在做分类？Contrastive 的Negative 只是sample出来，并不是全部，而Classification 的Negative 是全部，这也就理解了MoCo为什么要做memory bank? 存储更多的负类？）