蒸馏学习框架小抄(1)

其他 2022-08-19 09:53:01 阅读次数: 0

前言

大模型大行其道，但是当实际落地时，需要考虑硬件和运行功耗，因此企业更希望部署的是“小”模型。因此学习一些蒸馏技术就成为一些算法工程师必备的技能点。

_

MGD

论文: Masked Generative Distillation
代码: https://github.com/yzd-v/MGD

Dist

Knowledge Distillation from A Stronger Teacher
代码: https://github.com/hunto/DIST_KD

伪代码

import torch.nn as nn

def cosine_similarity(a, b, eps=1e-8):
	return (a * b).sum(1) / (a.norm(dim=1) * b.norm(dim=1) + eps)

def pearson_correlation(a, b, eps=1e-8):
	return cosine_similarity(a - a.mean(1).unsqueeze(1), b - b.mean(1).unsqueeze(1), eps)

def inter_class_relation(y_s, y_t):
	return 1 - pearson_correlation(y_s, y_t).mean()

def intra_class_relation(y_s, y_t):
	return inter_class_relation(y_s.transpose(0, 1), y_t.transpose(0, 1))

class DIST(nn.Module):
	def __init__(self, beta, gamma):
		super(DIST, self).__init__()
		self.beta = beta
		self.gamma = gamma

	def forward(self, z_s, z_t):
		y_s = z_s.softmax(dim=1)
		y_t = z_t.softmax(dim=1)
		inter_loss = inter_class_relation(y_s, y_t)
		intra_loss = intra_class_relation(y_s, y_t)
		kd_loss = self.beta * inter_loss + self.gamma * intra_loss
		return kd_loss

Teacher-student

论文: Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation

代码: https://github.com/yyliu01/PS-MT

博文: CVPR 2022 | PS-MT：半监督语义分割需要更稳定的一致性训练！

蒸馏骨干

TinyViT

论文: TinyViT: Fast Pretraining Distillation for Small Vision Transformers

代码: https://github.com/microsoft/Cream/tree/main/TinyViT

博文: ECCV22｜只能11%的参数就能优于Swin，微软提出快速预训练蒸馏方法TinyViT

半监督

DTG-SSOD

22.07
论文 DTG-SSOD: Dense Teacher Guidance for Semi-Supervised Object Detection
博文: DTG-SSOD：最新半监督检测框架，Dense Teacher

数据蒸馏

R2L

2022 ECCV
论文: R2L: Distilling Neural Radiance Field to Neural Light Field for Efficient Novel View Synthesis
博文: ECCV 2022｜Snap&东北大学提出R2L：用数据蒸馏加速NeRF
代码: https://github.com/snap-research/R2L

猜你喜欢

转载自blog.csdn.net/weixin_43850253/article/details/126147230

蒸馏学习框架小抄(1)

对比学习模型小抄(1)

知识蒸馏学习笔记1--Distilling the Knowledge in a Neural Network

风格迁移模型小抄(1)

全景分割模型小抄(1)

语音合成模型小抄(1)

点云模型小抄(1)

知识蒸馏学习记录

知识蒸馏---学习笔记

【CSS学习小抄】简要入门

Transformer系列目标检测模型小抄(1)

CV轻量级backbone模型小抄(1)

超分辨率模型小抄(1)

NLP常用Backbone模型小抄(1)

无监督图像掩码模型小抄(1)

（等待填坑）深度学习——蒸馏loss、蒸馏学习

深度学习：蒸馏和剪枝

知识蒸馏入门视频学习

知识蒸馏学习记录（二）

值得收藏的27个机器学习的小抄

我的Go语言学习小抄

[AI]算法小抄-目前最完善的RLHF框架：AlpacaFarm

Hibernate框架学习1

django框架学习-1

停止学习框架(1)

MyBatis框架学习-1

springMVC框架学习-1

spring 框架学习-1

React框架学习1

Pytorch框架的学习（1）

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)