搜索
首页科技周边人工智能用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

用视觉来做Prompt,会带来怎样的体验?

只需在图中随意勾画一下,即可立即标出相同的类别!

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框,就能找出所有米粒来。

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

有了新的目标检测范式!

刚刚结束的IDEA年度大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沉向洋展示了最新研究成果——

基于视觉提示(Visual Prompt)模型T-Rex的内容需要进行改写

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

整个流程交互,开箱即用,只需几步就可以完成。

此前,Meta开源的SAM分割一切模型,直接让CV领域迎来了GPT-3时刻,但仍是基于文本prompt的范式,在应对一些复杂、罕见场景就会比较难办。

现在以图换图的方式,就能轻松迎刃而解。

除此之外,整场大会也是干货满满,比如Think-on-Graph知识驱动大模型、开发者平台MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU机密计算协处理器、可控人像视频生成平台HiveNet等等。

最后,沉向洋还分享了过去几年时间花时间最多的一个项目:低空经济

我相信在低空经济相对成熟的时候,每天会有10万架无人机在深圳的天空中,而每天都会有百万架无人机起飞

用视觉来做Prompt

T -Rex除了基础的单轮提示功能外,还支持三种进阶模式

  • 多轮正例模式

这类似于多轮对话,可以得出更加精确的结果,避免漏检的情况

  • 正例+负例模式

适用于视觉提示带有二义性造成误检的场景。

跨图模式可以重新设计和布局图表,以轻松地可视化数据和信息

通过使用一张参考图来检测其他图像

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

据介绍,T-Rex不受预定义类别限制,可利用视觉示例来指定检测目标,从而解决了某些物体难以用文字充分表达的问题,提高了提示效率。特别是在一些工业场景中的复杂组件等情况下,效果尤为明显

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

除此之外,通过与用户交互的方式,也可以随时快速地评估检测结果,并进行纠错等。

T-Rex的构成主要包括三个组件:图像编码器、提示编码器和框解码器

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

这项工作来自IDEA研究院计算机视觉与机器人研究中心。

该团队此前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型;在Github上大火(至今狂揽11K星)的零样本检测器Grounding DINO与能够检测、分割一切的Grounded SAM。更多技术细节可戳文末链接。

整场大会干货满满

除此之外,IDEA大会上还重点分享了几个研究成果。

比如Think-on-Graph知识驱动大模型,简单来说就是将大模型与知识图谱结合。

大模型擅长意图理解和自主学习,而知识图谱因其结构化的知识存储方式,更擅长逻辑链条推理。

Think-on-Graph通过驱动大模型agent在知识图谱上“思考”,逐步搜索推理出最优答案(在知识图谱的关联实体上一步一步搜索推理)。每一步推理中,大模型都亲自参与,与知识图谱相互取长补短。

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

MoonBit月兔,这是由Wasm驱动,专为云计算与边缘计算设计的开发者平台。

该系统不仅提供了通用程序语言设计,还融合了编译器、构建系统、集成开发环境(IDE)、部署工具等模块,以提升开发体验和效率

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

此前发布的科研神器ReadPaper也更新至2.0,发布会现场演示了阅读copilot、润色copilot等新功能。

用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用

发布会最后,沉向洋发布《低空经济发展白皮书(2.0)——全数字化方案》,在其智能融合低空系统(Smart Integrated Lower Airspace System,SILAS)中,提出时空进程(Temporal Spatial Process)新概念。

T-Rex链接:
https://trex-counting.github.io/

以上是用视觉来做Prompt!沉向洋展示IDEA研究院新模型,无需训练或微调,开箱即用的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
及时工程中的数值推理链是什么?及时工程中的数值推理链是什么?Apr 17, 2025 am 10:08 AM

介绍 及时工程在人工智能和自然语言处理的快速发展的领域至关重要。 在其技术中,数值推理链(CONR)是增强AI的高效方法

Kaggle Grandmasters使用的顶级Python图书馆Kaggle Grandmasters使用的顶级Python图书馆Apr 17, 2025 am 10:03 AM

解锁Kaggle Grandmasters的秘密:顶级Python图书馆揭示了 Kaggle是数据科学竞赛的主要平台,拥有精选的精英表演者:Kaggle Grandmasters。 这些人一贯提供Innova

AI PC会改变您的工作场所的10种方法-Analytics VidhyaAI PC会改变您的工作场所的10种方法-Analytics VidhyaApr 17, 2025 am 09:59 AM

工作的未来:AI PC将如何彻底改变工作场所 人工智能(AI)集成到个人计算机(AI PC)中代表了工作场所技术的重大飞跃。 AI PC,定义为AI的融合

如何在Excel中冷冻窗格?如何在Excel中冷冻窗格?Apr 17, 2025 am 09:56 AM

Excel冻结窗格功能详解:高效处理大型数据集 Microsoft Excel是组织和分析数据的优秀工具之一,而“冻结窗格”功能更是其一大亮点。此功能允许您固定特定行或列,使其在浏览其余电子表格时保持可见,从而简化数据监控和比较。本文将深入探讨Excel冻结窗格功能的使用方法,并提供一些实用技巧和示例。 功能概述 Excel的冻结窗格功能可在滚动浏览大型数据集时,保持特定行或列可见,方便数据监控和比较。 提升导航效率,保持标题可见,简化大型电子表格中的数据比较。 提供通过“视图”选项卡和“冻

NEO4J与亚马逊海王星:数据工程中的图形数据库NEO4J与亚马逊海王星:数据工程中的图形数据库Apr 17, 2025 am 09:52 AM

导航互连数据的复杂性:Neo4J与亚马逊海王星 在当今数据丰富的世界中,有效管理复杂的互连信息至关重要。尽管传统数据库仍然相关,但他们经常与HI斗争

META SAM 2:建筑,应用和局限性-Analytics VidhyaMETA SAM 2:建筑,应用和局限性-Analytics VidhyaApr 17, 2025 am 09:40 AM

Meta的细分段的任何模型2(SAM-2):实时图像和视频细分方面的巨大飞跃 Meta再次通过SAM-2推动了人工智能的界限,SAM-2是计算机视觉的开创性进步

人工智能工作流程和消费者体验的数据策略人工智能工作流程和消费者体验的数据策略Apr 17, 2025 am 09:39 AM

通过AI增强数字消费者体验:一种数据驱动的方法 数字景观具有激烈的竞争力。 本文探讨了人工智能(AI)如何显着改善数字平台上的消费者体验。我们会考试

稳定扩散中的位置编码是什么? - 分析Vidhya稳定扩散中的位置编码是什么? - 分析VidhyaApr 17, 2025 am 09:34 AM

稳定的扩散:在文本到图像中揭示位置编码的力量 想象一下,从简单的文本描述中产生令人叹为观止的高分辨率图像。 这是稳定扩散的力量,一种尖端的文本对图像模型

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),