CV-图像分割-20230405:DINOv2【预训练大模型,拥有 10 亿级参数量,采用Transformer架构;可在语义分割、图像检索、深度估计等方面实现自监督训练。无需微调即可应用于多种下游】

多模态技术已成为推动游戏内容与元宇宙建设的关键力量。扎克伯格表示,DINOv2 将被用于制作更具沉浸感的元宇宙。在 AI 大模型竞赛中,Meta 选择重押视觉模型,并在推出零样本分割一切的 SAM 后,扎克伯格亲自官宣了重量级开源项目 DINOv2。
 


 
据了解,DINOv2 是计算机视觉领域的预训练大模型,拥有 10 亿级参数量,采用 Transformer 架构,可在语义分割、图像检索和深度估计等方面实现自监督训练。无需微调,即可应用于多种下游任务,从而改善医学成像、粮食作物生长、地图绘制等领域。

所谓视觉模型,就是一种能够像人类一样看懂图像的程序。我们想象一下,你拿一张照片给它看,它能够告诉你这是一只猫、一辆车、一个人或者其他东西,而且能够非常准确地判断。

这些神奇的程序得益于深度学习技术,也就是让计算机通过大量的数据学习和理解图像。

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/130446386