用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

王林

Nov 26, 2023 pm 08:22 PM

idea視覺

用视觉来做Prompt，会带来怎样的体验？

只需在图中随意勾画一下，即可立即标出相同的类别！

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

即便是那种GPT-4V都难搞定的数米粒的环节。只需要你手动拉一下框，就能找出所有米粒来。

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

有了新的目标检测范式！

刚刚结束的IDEA年度大会上，IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了最新研究成果——

基于视觉提示（Visual Prompt）模型T-Rex的内容需要进行改写

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

整个流程交互，开箱即用，只需几步就可以完成。

此前，Meta开源的SAM分割一切模型，直接让CV领域迎来了GPT-3时刻，但仍是基于文本prompt的范式，在应对一些复杂、罕见场景就会比较难办。

现在以图换图的方式，就能轻松迎刃而解。

除此之外，整场大会也是干货满满，比如Think-on-Graph知识驱动大模型、开发者平台MoonBit月兔、AI科研神器ReadPaper更新2.0、SPU机密计算协处理器、可控人像视频生成平台HiveNet等等。

最后，沈向洋还分享了过去几年时间花时间最多的一个项目：低空经济。

我相信在低空经济相对成熟的时候，每天会有10万架无人机在深圳的天空中，而每天都会有百万架无人机起飞

用视觉来做Prompt

T-Rex除了基础的单轮提示功能外，还支持三种进阶模式

多轮正例模式

这类似于多轮对话，可以得出更加精确的结果，避免漏检的情况

正例负例模式

适用于视觉提示带有二义性造成误检的场景。

跨图模式可以重新设计和布局图表，以轻松地可视化数据和信息

通过使用一张参考图来检测其他图像

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

据介绍，T-Rex不受预定义类别限制，可利用视觉示例来指定检测目标，从而解决了某些物体难以用文字充分表达的问题，提高了提示效率。特别是在一些工业场景中的复杂组件等情况下，效果尤为明显

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

除此之外，通过与用户交互的方式，也可以随时快速地评估检测结果，并进行纠错等。

T-Rex的构成主要包括三个组件：图像编码器、提示编码器和框解码器

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

这项工作来自IDEA研究院计算机视觉与机器人研究中心。

该团队此前开源的目标检测模型DINO是首个在COCO目标检测上取得榜单第一的DETR类模型；在Github上大火（至今狂揽11K星）的零样本检测器Grounding DINO与能够检测、分割一切的Grounded SAM。更多技术细节可戳文末链接。

整场大会干货满满

除此之外，IDEA大会上还重点分享了几个研究成果。

比如Think-on-Graph知识驱动大模型，简单来说就是将大模型与知识图谱结合。

大模型擅长意图理解和自主学习，而知识图谱因其结构化的知识存储方式，更擅长逻辑链条推理。

Think-on-Graph通过驱动大模型agent在知识图谱上“思考”，逐步搜索推理出最优答案（在知识图谱的关联实体上一步一步搜索推理）。每一步推理中，大模型都亲自参与，与知识图谱相互取长补短。

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

MoonBit月兔，这是由Wasm驱动，专为云计算与边缘计算设计的开发者平台。

该系统不仅提供了通用程序语言设计，还融合了编译器、构建系统、集成开发环境（IDE）、部署工具等模块，以提升开发体验和效率

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

此前发布的科研神器ReadPaper也更新至2.0，发布会现场演示了阅读copilot、润色copilot等新功能。

用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用

发布会最后，沈向洋发布《低空经济发展白皮书（2.0）——全数字化方案》，在其智能融合低空系统（Smart Integrated Lower Airspace System，SILAS）中，提出时空进程（Temporal Spatial Process）新概念。

T-Rex链接：
https://trex-counting.github.io/

以上是用视觉来做Prompt！沈向洋展示IDEA研究院新模型，无需训练或微调，开箱即用的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

微軟工作趨勢指數2025顯示工作場所容量應變Apr 24, 2025 am 11:19 AM

由於AI的快速整合而加劇了工作場所的迅速危機危機，要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點：68％的員工在工作量上掙扎，導致BUR

AI可以理解嗎？中國房間的論點說不，但是對嗎？Apr 24, 2025 am 11:18 AM

約翰·塞爾（John Searle）的中國房間論點：對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。想像一個人，對下巴一無所知

中國的'智能” AI助手回應微軟召回的隱私缺陷Apr 24, 2025 am 11:17 AM

與西方同行相比，中國的科技巨頭在AI開發方面的課程不同。他們不專注於技術基準和API集成，而是優先考慮“屏幕感知” AI助手 - AI T

Docker將熟悉的容器工作流程帶到AI型號和MCP工具Apr 24, 2025 am 11:16 AM

MCP：賦能AI系統訪問外部工具模型上下文協議（MCP）讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持，MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而，實施MCP服務器存在一些挑戰，包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者：Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc