近来Meta在论文中发布新模型Segment Anything Model (SAM),用于辨认、切割图画和视频中的物体。与其他核算机视觉模型比较,SAM的立异性首要体现在以下几个方面:1)SAM依据1100万张图画和11亿个掩码的海量数据集进行练习,是迄今为止最大的切割数据集;2)SAM在切割使命中展现出较强的零样本功能,能对从未练习过的图片进行精准切割,开端验证了多模态技能途径及其泛化才能;3)SAM创始性地与Prompt结合了起来,标志着自然语言处理的Prompt形式开端被使用在了核算机视觉范畴。Meta表明,现在公司内部现已开端使用SAM相关技能,用于在Facebook、Instagram等交际渠道上相片的符号、内容审阅和内容引荐等。
继Meta发布SAM后,智源研究院视觉团队推出通用切割模型SegGPT(Segment Everything In Context)。与SAM的精密标示才能比较,SegGPT模型更偏重于批量化标示切割才能,无论是在图画仍是视频环境,用户在画面上标示辨认一类物体,即可批量化辨认切割出其他一切同类物体。从测验成果看,研究人员在广泛的使命上对SegGPT进行了评价,包含少样本语义切割、视频目标切割、语义切割和全景切割,成果显现SegGPT模型相同展现出强壮的零样本场景搬迁才能,并在COCO和PASCAL等经典CV数据集上获得最优功能。
在工业制作范畴,图画切割是图画辨认和机器视觉至关重要的预处理,相关技能被用于捕捉和处理图画,为设备供给操作辅导的使用,详细场景包含乱序零件的分拣等。以往为特定使命创立精确的切割模型一般需求范畴专家进行高度专业化的作业,一起需求强壮的算力与很多精准标示的数据,而SAM等通用图画切割模型完成了机器视觉中心技能的范式打破,未来有助于削减很多的数据标示作业。
我国工业范畴对选用图画和机器视觉技能的工业自动化、智能化需求广泛提高,以工业相机、图画采集卡、光源及图画处理软件为中心的视觉产品日益完善。依据亿欧智库的统计数据,我国机器视觉器材和体系的销售额从2012年的19.8亿元增加至2021年的161亿元,复合增加率到达31.7%,现在3D技能范畴80%以上的市场份额被海外企业占有,国产化需求将进一步推进我国工业视觉工业的快速展开。从工业视觉下业来看,3C电子、半导体、新能源职业算计占比约80%,咱们以为随同消费电子等产品不断晋级,关于机器视觉的通用性、精确性要求将更高,图画切割等AI技能有望带来工业制作范畴的降本增效。
现在SAM模型及数据集均为开源,能够灵敏集成于更大的AI体系,跟着SAM的演进与展开,该技能可能会成为工业质检、AR/VR、自动驾驶、卫星遥感等多范畴的强壮的辅助工具,咱们看好SAM等图画切割模型在机器视觉中的使用,主张重视相关标的:
(1)奥普特:机器视觉中心部件龙头,深度学习(工业AI)、3D视觉工序掩盖持续增加;
(2)凌云光:智能视觉配备供货商,展开多种AI算法、核算成像、大数据与认知图谱等技能研究;
(3)奥比中光:聚集3D视觉感知,与微软、英伟达联合研制制作3D iToF相机Femto Mega;
(4)千方科技:才智交通职业领军,视觉智能算法赋能车路协同,有望与大股东阿里构成全方位协作;
(5)声迅股份:安防全体解决方案供给商,加大练习算力投入,为安防视频图画剖析、智能行为剖析等供给算力支撑。
职业竞赛加重危险;SAM模型落地不及预期;机器视觉相关技能展开不及预期等。