A comprehensive survey on segment anything model for vision and beyond

视觉分割大模型的过去、现在和未来!SAM最新综述来了!今天自动驾驶之心很荣幸邀请到Garfield来分享视觉SAM分割大模型的最新综述,如果您有相关工作需要分享,https://mp.weixin.qq.com/s/-_QFvxBGzFpAgVGF-t-XRgSegment Anything Model (SAM)发布了一个多月,有哪些应用呢?请看综述(一) - 知乎1. 简介:一个多月以前,Meta发布了Segment Anything Model (SAM) 当时我还测试了一下,大家需要了解的话可以看一下: 北方的郎:Meta Segment Anything 测试效果到现在,一个多月过去了,SAM都有哪些应用呢? 答…https://zhuanlan.zhihu.com/p/6313887361.introduction

1.1 将视觉transformer扩展到极大规模。

1.2 大量工作致力于添加附加模态的知识,例如clip和align。

1.3 模型的一个共同的特征是依靠在广泛数据集上预训练的基础模型,使用可以解决各种下游的提示学习,从而具备了强大的零样本泛化能力。

2.背景

图像分割、交互分割和基础模型。

sam:任务、模型和数据。提出了一个包括可提示分割任务(分割目标的point,box,mask和文本)、可以接受多个提示输入并实现交互使用的sam和使用交互式训练注释循环过程的数据引擎形成的数据集SA-1B。sam结构包括,图像编码,prompt编码,mask解码,其中图像编码采用MAE,prompt编码分为稀疏输入(使用clip的文本编码器作为位置编码器来处理点、框和文本形式的提示)和密集输入(使用卷积处理mask输入),mask解码使用prompt-image双向transformer解码器。使用dice loss和focal loss,数据获取包括辅助手动阶段,半自动化阶段和全自动化阶段。

3.方法

3.1 software scenes

Image Editing:图像编辑

Inpaint anything,用户点击操作用作sam中提示,生成对象区域的mask,然后lama使用腐蚀和膨胀操作操作进行填充,使用sd通过文本提示生成新的对象来替换和填充。

Edit everything,在输入图像时,sam首先将其分割成几个段落而无需提示,然后使用源提示指导clip对收到的段落进行排序,只选择得分最高的座位目标,使用sd来生成,在中文场景下重新训练了4亿参数的clip和10亿参数的sd。

style transfer:固定区域的风格迁移

sam在自然图像场景中有出色的泛化能力,但在低对比度场景中显示出较少的结果,并且在复杂场景中需要先验知识。

3.2 real-world scenes

Detection:

Counting:使用sam进行图像分割,然后将分割出的每个目标物体作为计算对象,另一种是使用sam生成目标物体的特征向量,然后使用这些特征向量来计算相似度,从而确定数量。

Moving object:tracking anything

3.3 complex scenes

低对比度场景:伪装目标分割、工业缺陷、医学病变

热红外成像:

鸟瞰:

4.vision related application

4.1.1 medical image

医学图像:计算机断层扫描(CT)图像、磁共振成像(MRI)图像、结肠镜图像、H&E染色组织切片图像、多种格式图像和其他图像。

4.1.2 video

Track anything,sam-track

seem,VSR

4.1.3 data annotations

4.2 beyond vision

4.2.1 3D reconstruction

4.2.4 视频文字定位

传统的视频文字定位依赖于检测边框和边界框内识别文本实例,在具有不规则形状或者方向的文本实例存在局限性。SamText,给定一个输入的场景文本图像或视频帧,SamText首先从现有注释中提取边界框坐标或从场景文本检测中生成,如果框是带方向的,SamText将计算它们最小包围矩形亿获取水平边界框,然后将其作为SAM的输入提取,以获取mask,sam模型是一个分割模型,预先在自然图像上进行预训练,并在coco-text上进行微调,已生成文本实例的mask,获取mask之后进行后处理以确保其连通性。

4.2.5 vision and language

CAT:caption anything fraamework,可控制的图像描述方法,采用sam模型作为分割器,并通过视觉提示与用户交互,实现对图像描述的多模态控制,包括三个组件,分割器、描述器和文本优化器,分割器使用sam生成图像中感兴趣的区域,描述器生成初始图像描述,文本优化器通过用户定义的语言控制来优化描述图像。

4.2.6 audio and vision

4.2.7 多模态可视化和开放词汇交互式分割

猜你喜欢

转载自blog.csdn.net/u012193416/article/details/131955999