mobilesam:faster segment anything towards lightweight sam for mobile application

Faster Segment Anything(MobileSAM):更快地分割一切,模型小60倍,速度提50倍 - 知乎原文题目: Faster Segment Anything: Towards Lightweight SAM for Mobile Applications. [github code] 文章链接:Faster Segment Anything: Towards Lightweight SAM for Mobile ApplicationsFacebook近期发布的…https://zhuanlan.zhihu.com/p/639621335【论文解读】TinyVit:快速蒸馏vit,可替换sam的vit(mobilesam) - 知乎1.背景sam(segment anything model)作为视觉基础模型,在视觉分割上具有非常优异的表现。具体参考文章 【论文解读】MetaAi SAM(Segment Anything) 分割一切。sam主要的一个部分就是image encoder,image encoder采…https://zhuanlan.zhihu.com/p/642469607

官方放出来的3个pth文件,还都是比较大的,vit-h:2.38g,vit-l:1.28g,vit-b:357mb。由上面可知,vit-based image encoder的参数量超过600M,prompt-guided mask encoder只有4M参数,我们可以把重量级的图像编码器换成轻量级的再重新训练整个sam,该过程是knowledge distillation,这种直接替换再重新训练的难度在于image编码器和mask解码器的耦合优化,基于分而治之的思想,可以固定编码器或者解码器,取优化另一个。然而,mask解码器段的prompt的选择是随机的,这使得mask解码器可变,mobilesam的核心方案就是采用解耦蒸馏的方法,固定prompt-guided mask decoder,把vit-h蒸馏到小型的图像编码器中。

方法也是很简单的, 就是保持prompt encoder+mask decoder不变,用tinyvit训练了一个轻量级版本的sam,效果还是不错的,比fastsam要好。

猜你喜欢

转载自blog.csdn.net/u012193416/article/details/132056137