【ITBEAR科技资讯】5月31日消息,北京智源人工智能研究院在今天的中关村论坛人工智能大模型发展论坛上推出了一款名为SegGPT(Segment Everything In Context)的通用分割模型。
SegGPT是智源人工智能研究院基于其通用视觉模型Painter开发的一款衍生模型。据称,这款模型具备出色的上下文推理能力,训练完成后只需提供示例即可完成各种分割任务,涵盖图像和视频中的实例、类别、零部件、轮廓、文本、人脸和医学图像等。使用视觉提示词(prompt)即可轻松实现分割任务。
与此同时,SegGPT还拥有支持任意数量视觉提示的推理能力。它能够通过使用第一帧图像和相应的物体掩码作为上下文示例,自动进行视频分割,并且可以根据掩码的颜色为物体分配独特的ID,实现自动追踪。
据ITBEAR科技资讯了解,在此之前,meta公司也发布了基于人工智能的Segment Anything Model(SAM)模型,该模型能够识别和分离图像和视频中的特定对象。此外,威斯康辛麦迪逊大学、微软、香港科技大学等机构的研究人员也推出了名为SEEM的模型,通过不同的视觉提示和语言提示,实现一键分割图像和视频的功能。
SegGPT的推出将为图像和视频分割任务提供更加便捷和高效的解决方案,为人们在各种领域的应用场景中提供更多可能性。相信随着这些通用分割模型的不断发展和创新,人们将能够更好地利用人工智能技术,实现更精确和高质量的图像和视频分割效果。