继火爆出圈的Grounded SAM之后,IDEA研究院团队携重磅新作归来:全新视觉提示(Visual Prompt)模型T-Rex,以图识图,开箱即用,开启开集检测新天地!
拉框、检测、完成!在刚刚结束的2023IDEA大会上,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋展示了基于视觉提示的目标检测新体验,并发布了全新视觉提示模型T-Rex的模型实验室(playground), Interactive Visual Prompt(iVP),掀起现场一波试玩小高潮。
在iVP上,用户可以亲自解锁“一图胜千言”的prompting体验:在图片上标记感兴趣的对象,向模型提供视觉示例,模型随即检测出目标图片中与之相似的所有实例。整套流程交互便捷,只需几步操作就可轻松完成。
IDEA研究院4月份发布的Grounded SAM (Grounding DINO SAM) 曾在Github上火爆出圈,至今已狂揽11K星。有别于只支持文字提示的Grounded SAM,此次发布的T-Rex模型提供着重打造强交互的视觉提示功能。
T-Rex具备极强的开箱即用特性,无需重新训练或微调,即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务,还为智能交互标注场景提供新的解决方案。
团队透露,研发视觉提示技术是源自对真实场景中痛点的观察。有合作方希望利用视觉模型对卡车上的货物数量进行统计,然而,仅通过文字提示,模型无法单独识别出每一个货物。其原因是工业场景中的物体在日常生活中较为罕见,难以用语言描述。在此情况下,视觉提示显然是更高效的方法。与此同时,直观的视觉反馈与强交互性,也有助于提升检测的效率与精准度。
基于对实际使用需求的洞察,团队将T-Rex设计成可接受多个视觉提示的模型,且具备跨图提示能力。除了最基本的单轮提示模式,目前模型还支持以下三种进阶模式.
- 多轮正例模式:适用于视觉提示不够精准造成漏检的场景
- 正例 负例模式:适用于视觉提示带有二义性造成误检的场景
- 跨图模式:适用于通过单张参考图提示检测他图的场景
在同期发布的技术报告中,团队总结了T-Rex模型的四个主要特点:
- 开放集:不受预定义类别限制,具有检测一切物体的能力
- 视觉提示:利用视觉示例指定检测目标,克服罕见、复杂物体难以用文字充分表达的问题,提高提示效率
- 直观的视觉反馈:提供边界框等直观视觉反馈,帮助用户高效评估检测结果
- 交互性:用户便捷参与检测过程,对模型结果进行纠错
研究团队指出,在目标检测场景中,视觉提示的加入能够补足文本提示的部分缺陷。未来,两者的结合将进一步释放CV技术在更多垂直领域的落地潜能。
有关T-Rex模型的技术细节,请参考同期发布的技术报告。
iVP模型实验室:https://deepdataspace.com/playground/ivp
Github連結:trex-counting.github.io
這項工作來自於IDEA研究院電腦視覺與機器人研究中心。該團隊先前開源的目標檢測模型DINO是第一個在COCO目標檢測排行榜上取得第一名的DETR類模型;在Github上非常受歡迎的零樣本檢測器Grounding DINO和能夠檢測和分割任何物體的Grounded SAM,同樣是團隊的作品
以上是新技術推出,IDEA研究院發表T-Rex模型,讓使用者能夠直接在影像上選擇「Prompt」提示的詳細內容。更多資訊請關注PHP中文網其他相關文章!

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse
將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1
好用且免費的程式碼編輯器

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器