近日,Meta AI在官网发布了基础模型 Segment Anything Model(SAM)并开源。据悉,SAM已在1100万张图片和11亿个掩码的数据集上进行了训练,具有超强的自动识别、切割功能。
识别图片元素进行切割归类是CV(计算机视觉,Computer Vision)的核心功能之一,在科学研究、日常工作中有着广泛的应用案例,但该技术对使用人员要求较高。现在通过SAM模型使得普通人也能使用CV技术,实现交互式和自动化两种切割方式。
简单来说,可以把SAM看成CV界的“ChatGPT”。这种傻瓜式操作使得没有专业AI技术背景的人,也能将CV融合在实际业务中,例如,医疗、农业、气象、天文、媒体等都非常适用于SAM基础模型。同时也能将SAM集成在应用产品中,尤其是AR、VR应用。
2022年Meta(Facebook母公司)的元宇宙部门Reality Labs亏损了137亿美元,2021年则亏损 102亿美元,今年3月Meta又宣布裁员1万多人。一系列不如意的窘境使得Meta不得不调整战略计划寻找新的业务增长点。
ChatGPT的横空出世并实现指数级增长,让Meta看到了生成式AI的巨大商业潜力。而Meta拥有世界上运算速度最快AI超级计算机之一的RSC,同时也有庞大的AI人才库,具备从底层硬件、模型到应用层全套研发能力。
例如,Meta在今年2月开源的类ChatGPT大语言模型LLaMA,免费面向科研人员用于技术研究。如今,又开源了SAM模型,这足以看出Meta准备在AI赛道上大展拳脚的决心。
SAM简单介绍
根据Meta AI的说法,SAM是一种主要用于图像切割的的基础模型,通过在不同数据上进行广泛的训练具备“可提示”的能力,有点类似自然语言处理模型中使用提示的方式。例如,AR、VR用户的注视行为。
SAM已经具备了解“对象”的概念,可以为任何图像、视频中的任何对象生成掩码,甚至在数据训练中没有遇到的对象和图像也可以。
Meta AI认为,SAM的用于非常广泛并且对图片的理解能力非常强,无论是医疗、水下等复杂图片都能快速识别。因此,SAM可以集成在任何希望识别、切割对象的应用中,尤其是AR、VR领域,在商业化落地方面拥有非常大的空间。
SAM作为一种基础模型在AI系统生态中起到“扳手”的作用,对物理世界进行多模态理解,例如,理解网页的视觉和文本内容;帮助设计者进行图片切割,然后再进行拼装组合等。
SAM切割方法介绍
以前,要解决任何类型的切割问题有两种方法。第一种是交互式切割:允许切割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。
第二种是自动切割:允许切割提前定义的特定对象类别(例如,猫、椅子、狗等)。但需要大量的手动注释对象来进行训练(例如,数千甚至数万个切割猫的例子),连同计算资源和技术一起训练切割模型。但这两种方法都没有提供通用、全自动的切割方法。
SAM则结合了这两种方法,可轻松实现交互式和自动式切割。用户只需为SAM提供点、框、文本等,便可以完成切割任务。
此外,SAM在超过10 亿个掩码的多样化、高质量数据集上进行训练。使得SAM能够感知超出数据训练的对象和图像。简单来说,就算图片不在SAM训练范围内,它也能识别。这意味着,用户无需再收集自己的细分数据,并为用例模型进行微调。
SAM在执行切割任务时,4中方式解读:1)SAM允许用户通过交互式点击,来切割或排除对象。也可以使用边界框提示模型。2)当SAM在切割对象出现歧义时,可以输出多个有效掩码,这是解决现实世界中切割难题的重要能力。
3)SAM可以自动发现并屏蔽图像中的所有对象。4)SAM 可以在预计算图像嵌入后实时为任何提示生成分割掩码,允许与模型进行实时交互。
为SAM提供训练的数据集——SA-1B
为了训练SAM模型,Meta AI构建了目前世界上最大的切割数据集SA-1B,包含了大约1100万张得到许可的图片和超过11亿个分割掩码,数据体量比世界第二大的OpenImages V5大了400倍。
Meta AI表示,经过人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可比之前更小,可与完全手动注释的数据集的掩码相媲美。
在商业场景化落地方面,Meta AI认为,SAM作为一种基础模型,在医疗、农业、气象、天文、媒体等主流行业拥有广阔的应用空间,例如,通过SAM模型监控家畜的饲养情况。