视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品

视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品

Apr 12, 2023 pm 05:31 PM

ai模型

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

现在AI圈确实到了拼手速的时候啊。

这不，Meta的SAM刚刚推出几天，就有国内程序猿来了波buff叠加，把目标检测、分割、生成几大视觉AI功能all in one！

比如基于Stable Diffusion和SAM，就能让照片中的椅子无缝换成沙发：

换装、换发色也是so easy：

项目一经发布就让不少人惊呼：手速也太快了吧！

还有人表示：我和新垣结衣的新结婚照有了。

如上就是Gounded-SAM带来的效果，项目在GitHub上已揽星1.8k。

简单来说，这就是一个zero-shot视觉应用，只需要输入图片，就能自动化检测和分割图像。

该研究来自IDEA研究院（粤港澳大湾区数字经济研究院），创始人兼理事长为沈向洋。

无需额外训练

Grounded SAM主要由Grounding DINO和SAM两个模型组成。

其中SAM（Segment Anything）是4天前Meta刚刚推出的零样本分割模型。

它可以为图像/视频中的任何物体生成mask，包括训练过程中没出现过的物体和图像。

通过让SAM对于任何提示都返回有效的mask，能够让模型在即使提示是模糊的或者指向多个对象的情况下，输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

模型框架主要由一个图像编码器、一个提示编码器和一个快速mask解码器组成。在计算图像嵌入后，SAM能够在50毫秒内根据web中的任何提示生成一个分割。

Grounding DINO是该研究团队已有的成果。

这是一个零样本检测模型，能够生成带有文字描述的物体box和标签。

二者结合后，可以通过文本描述找到图片中的任意物体，然后通过SAM强大的分割能力，细粒度地分割出mask.

在这些能力之上，他们还叠加了Stable Diffusion的能力，也就是开头所展示的可控图像生成。

值得一提的是，Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素，再输入文本提示就可以。

这一回，Grounded SAM能够省去手动选区这个步骤，直接通过文本描述来控制。

另外结合BLIP（Bootstrapping Language-Image Pre-training），生成图片标题、提取标签，再生成物体box和mask。

目前，还有更多有趣的功能正在开发中。

比如人物方面的一些拓展：更换衣服、发色、肤色等。

具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本，pytorch 1.7以上版本，torchvision 0.8以上版本，并要安装相关依赖项。具体内容可看GitHub项目页。

该研究团队来自IDEA研究院（粤港澳大湾区数字经济研究院）。

公开消息显示，该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构，前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

One More Thing

对于Grounded SAM的未来工作，团队有几点展望：

自动生成图像构成新数据集
具有分割预训练的强大基础模型
和（Chat-）GPT合作
构成一个自动生成图像标签、box和mask的pipeline，并能生成新的图像。

值得一提的是，该项目的团队成员中，有不少都是知乎AI领域活跃的答主，这次也在知乎上自答了关于Grounded SAM的内容，感兴趣的童鞋可以去留言请教~

以上是视觉AI能力大一统！自动化图像检测分割，还能可控文生图，华人团队出品的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

外推指南

外推指南Apr 15, 2025 am 11:38 AM

介绍假设有一个农民每天在几周内观察农作物的进展。他研究了增长率，并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义

软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI（被定义为AI系统，旨在使用近似推理，模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。但是这对业务意味着什么

为AI前沿的不断发展的安全框架

为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变，AI需要专门为AI独特需求而设计的新型安全解决方案。云计算和安全课程的兴起在

生成AI的3种方法放大了企业家：当心平均值！

生成AI的3种方法放大了企业家：当心平均值！Apr 15, 2025 am 11:33 AM

企业家，并使用AI和Generative AI来改善其业务。同时，重要的是要记住生成的AI，就像所有技术一样，都是一个放大器 - 使得伟大和平庸，更糟。严格的2024研究O

Andrew Ng的新简短课程

Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量：深入研究安德鲁·NG的新课程想象一个未来，机器可以完全准确地理解和回答您的问题。这不是科幻小说；多亏了AI的进步，它已成为R

大语言模型（LLM）中的幻觉是不可避免的吗？

大语言模型（LLM）中的幻觉是不可避免的吗？Apr 15, 2025 am 11:31 AM

大型语言模型（LLM）和不可避免的幻觉问题您可能使用了诸如Chatgpt，Claude和Gemini之类的AI模型。这些都是大型语言模型（LLM）的示例，在大规模文本数据集上训练的功能强大的AI系统

60％的问题 - AI搜索如何消耗您的流量

60％的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明，根据行业和搜索类型，AI概述可能导致有机交通下降15-64％。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心Apr 15, 2025 am 11:26 AM

埃隆大学（Elon University）想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”，得出的结论是，大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

4 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.聊天命令以及如何使用它们

4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序，非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具，帮助Web开发人员更好地理解保护Web应用程序的过程，并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞，难度各不相同。请注意，该软件中

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境，用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问，并防止学生使用未经授权的资源。

mPDF

mPDF

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具，用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

热门话题

gmail邮箱登陆入口在哪里

7519

15

1378

52

steam的账户名称是什么格式

81

11

win11激活密钥永久

53

19

NYT连接提示和答案

21

68