音讯面上,近来,MetaAI在官网发布了根底模型SegmentAnythingModel(SAM)并开源,其本质是用GPT的方法(根据Transform模型架构)让计算机具有理解了图画里边的一个个“目标”的通用才能。
据悉,该模型能够用于切割图画中的全部目标,包含练习数据中没有的内容;交互方面,SAM可运用点击、框选、文字等各种输入提示(prompt),指定要在图画中切割的内容,这也意味着,用于自然语言处理的Prompt形式也开端被使用在计算机视觉范畴。关于视频中物体,SAM也能精确辨认并快速符号物品的品种、姓名、巨细,并自动用ID为这些物品进行记载和分类。
此外,国内智源研讨院视觉团队也提出了通用切割模型SegGPT(SegmentEverythinginContext),这也是首个使用视觉上下文完结各种切割使命的通用视觉模型。
国盛证券表明,估计1—5年内,跟着多模态的开展带来AI泛化才能提高,通用视觉、通用机械臂、通用通用物流转移机器人、职业服务、真实的智能家居有望进入日子。估计5—10年内,结合复杂多模态计划的大模型有望具有齐备的与国际交互的才能,在通用、虚拟现实等范畴得到使用。
西部证券指出,Meta此次推出SAM预示着大模型在多模态开展方面更进一步,布局计算机视觉/视频的厂商有望在Meta产品推出的布景下继续获益。主张重视:多模态解决计划产业链:当虹科技:公司专心于智能视频技能的算法研讨,聚集AI视觉使用,有望获益大模型多模态使用;:聚集AI视觉使用的小伟人,布局存算一体,有望获益大模型多模态使用。