首頁  >  文章  >  科技週邊  >  能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

WBOY
WBOY轉載
2023-05-11 23:28:051228瀏覽

一直以來,人類夢想著機器人能夠輔助人類處理生活和工作的事情。 “請幫我調低空調的溫度”,甚至 “請幫我寫一個商城網站” 都在近年來的家居助手和 OpenAI 發布的 Copilot 上得以實現。

GPT-4 的出現,進一步為我們展示了多模態大模型在視覺理解上的潛力。開源中小模型方面,LLAVA、minigpt-4 表現不俗,可以看圖聊天,還可以為人類猜測美食圖片中的食譜。然而,這些模型在實際落地中仍面臨重要的挑戰:沒有精準的定位能力,不能給出某物體在圖片中的具體位置,也不能理解人類的複雜指令來檢測具體物體,因此很多時候無法執行人類的具體任務。在實際場景中,人們遇到複雜問題,如果能透過拍一張照來詢問智慧助理得到正確答案,這樣的 「拍照問問」 功能簡直酷炫。

要實現「拍照問問」 這個功能,需要機器人具備多項能力:

1. 語言理解能力:能夠聽懂並理解人類的意圖

2. 視覺理解能力:能夠理解看到的畫面中的物體

3. 常識推理能力:能夠將複雜的人類意圖轉換為可定位的精確目標

4. 物體定位能力:能夠從畫面中定位並偵測出對應物體

這四大能力,目前只有少數的大模型(例如Google的PaLM-E)同時具備。然而,來自港科大& 港大的研究人員提出了一個全開源模型DetGPT (全名DetectionGPT),只需微調三百萬參數量,讓模型輕鬆擁有了複雜推理和局部物體定位能力,可以泛化到大多數場景。這意味著模型能夠透過自身知識的推理來理解人類抽象指令,輕鬆辨識圖片中的人類感興趣的物體!他們已經將模型做成「拍照問與問」 demo,歡迎線上體驗:https://detgpt.github.io/

DetGPT 可以讓使用者用自然語言操作一切,不需要繁瑣的指令或介面。同時,DetGPT 也具備智慧推理和目標偵測能力,可以準確地理解使用者的需求和意圖。例如人類發一個語言指令 “我想喝冷飲”,機器人先在場景中搜尋冷飲,但沒有找到。於是開始思考 「場景裡沒有冷飲,我該去哪裡找」。透過強大的常識推理能力模型想到了冰箱,於是掃描場景畫面發現了冰箱,成功鎖定飲料位置!

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

  • 開源程式碼:##https://www .php.cn/link/10eb6500bd1e4a3704818012a1593cc3
  • #Demo 線上試玩:https://detgpt.github.io/##Demo 線上試玩:https://detgpt.github.io/

夏天口渴,圖片裡哪裡會有冰飲料? DetGPT 輕鬆理解找到冰箱:

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

明天要早起? DetGPT 輕鬆 ​​pick 電子鬧鐘:

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

#高血壓、容易累?去到水果市場,不清楚買什麼水果能緩解高血壓? DetGPT 擔任你的營養老師:

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

#薩爾達遊戲不會通關? DetGPT 助你變裝通過女兒國關卡:######

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

圖片的視野範圍內有什麼危險事物? DetGPT 成為保護你的安全員:

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

圖片裡有什麼物品對小孩來說很危險? DetGPT 依然沒問題:

DetGPT 有什麼特性?

  • 圖片中具體物件的理解能力大幅提升。相較於以往的圖文對話多模態模型,我們能夠透過理解使用者指令從圖片中檢索並定位出目標物體,而不是單純對整張圖做出描述。
  • 能理解人類複雜指令,降低使用者的提問門檻。例如,模型可以理解問題 「找到圖中能夠緩解高血壓的食物」。而傳統目標檢測需要人類已知答案,提前預設檢測類別 「香蕉」。
  • DetGPT 能根據已有 LLM 知識進行推理,從而精確定位到圖中能解決複雜任務的對應物。對於複雜的任務,例如 「緩解高血壓的食物」。 DetGPT 可以對這一複雜任務逐步推理:緩解高血壓-> 鉀元素能夠緩解高血壓-> 香蕉富含鉀元素-> 香蕉可以緩解高血壓-> 需要識別物體香蕉

能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了

################################################ #######提供人類常識範圍以外的答案。對一些不常見的問題,例如人類不了解哪些水果富​​含鉀,模型能根據已有知識來解答。 ##################值得關注的新方向:利用常識推理實現更精準開集目標偵測################ ########傳統偵測任務要求預設可能的物件類別,以便進行偵測。但是精確且全面描述要檢測的物體,對人類來說是不友善的,甚至是不切實際的。具體而言,(1)受到有限記憶 / 知識的限制,人並不總是能精確表述自己想要檢測的目標物體。例如,醫生建議有高血壓的人多吃水果補充鉀元素,但不了解哪些水果富​​含鉀,就無法給出具體的水果名稱讓模型去檢測;如果能直接把問題「把能緩解高血壓的水果辨識出來」 拋給檢測模型,人類只需要拍一張照片,模型自身去思考、推理、和檢測富含鉀的水果,這個問題就簡單許多。 (2)人類能舉例物體類別是不全面的。例如,如果相對公共場所不符合公共秩序的行為進行監控,人類或許能只能簡單列出幾個場景如持刀、吸煙;但如果直接把問題「檢測不符合公共秩序的行為」 交給檢測模型,模型自行思考、根據自己的知識進行推理,則能捕捉到更多的不良行為和泛化到更多需要檢測的相關類別。畢竟一般人類所了解的知識是有限的,能夠舉出來的物體類別也是有限的,但如果有一個類似ChatGPT 的大腦進行輔助和推理,人類所需要給出的指令就簡單多了,所獲得的答案也能精確、全面許多。 ############基於人類指令的抽象性和局限性,港科大 & 港大的研究人員提出 “推理型目標檢測 ” 這一新方向。簡單來說,就是人類給出一些抽象的任務,模型能自己去理解、推理圖片裡的哪些物體可能完成這項任務,並將其偵測出來。舉個簡單的例子,人類描述 “我想喝一杯冷飲,在哪裡可以找到它”,模型看到的是一張廚房的照片,它能夠把 “冰箱” 檢測出來。這個主題要求將多模態模型的圖像理解能力與語言大模型儲藏的豐富知識完美結合、用於細粒度的檢測任務場景中:利用語言模型的大腦來理解人類的抽象指令,精確地定位圖片中人類感興趣的物體,而不需要預設物體類別。 ######

方法介紹

「推理型目標偵測」 是一個困難的問題,因為偵測器不僅需要對使用者的粗粒度/ 抽象的指令進行理解和推理,更要分析當前所看到的視覺訊息,從而定位出目標物體。在這一方向上,港科大 & 港大的研究人員進行了一些初步的探索。具體而言,他們利用預先訓練好的視覺編碼器 (BLIP-2) 來獲取圖片視覺特徵,透過一個對齊函數 (alignment function) 將視覺特徵對齊到文字空間。利用大規模語言模型 (Robin/Vicuna) 來理解使用者問題,結合看到的視覺訊息,對使用者真正感興趣的物體進行推理。然後將物件名稱提供給預先訓練好的偵測器 (Grouding-DINO) 進行特定位置的預測。這樣一來,模型可以根據使用者的任何指令分析圖片,精確地預測出使用者感興趣物體的位置。

值得注意的是這裡的困難主要在於,針對不同具體任務,模型要能實現特定格式(task-specific)的輸出,而盡可能不損害模型原本的能力。為指導語言模型遵循特定的模式,在理解影像和使用者指令的前提下進行推理和產生符合目標偵測格式的輸出,研究團隊利用 ChatGPT 產生跨模態 instruction data 來微調模型。具體而言,基於 5000 個 coco 圖片,他們利用 ChatGPT 創建了 3w 個跨模態圖像 - 文字微調資料集。為了提高訓練的效率,他們固定住其他模型參數,只學習跨模態線性映射。實驗效果證明,即使只有線性層被微調,語言模型也能夠理解細粒度的圖像特徵,並遵循特定的模式來執行基於推理的圖像檢測任務、表現出優異的性能。

這一研究主題具有非常大的潛力。基於這項技術,家庭機器人領域將進一步大放異彩:家庭中的人們可以透過抽像或粗粒度的語音指令,讓機器人理解、辨識、並定位所需的物品,提供相關服務。在工業機器人領域,這種技術更將煥發出無盡的活力:工業機器人可以與人類工作人員更自然地合作,準確地理解他們的指令和需求,實現智慧化的決策和操作。在生產線上,人類工作人員可以透過粗粒度的語音指令或文字輸入,讓機器人自動理解、辨識並定位需要加工的物品,從而提高生產效率和品質。

基於自帶推理能力的目標偵測模型,我們可以開發出更有智慧、自然化、更有效率的機器人,為人類提供更便捷、高效和人性化的服務。這是一個具有廣闊前景的領域。也值得更多研究者的進行關注與進一步探索。

值得一提的是,DetGPT 支援多種語言模型,目前已基於 Robin-13B 和 Vicuna-13B 兩個語言模型進行驗證。 Robin 系列語言模型是港科大LMFlow 團隊(https://github.com/OptimalScale/LMFlow)訓練的對話模型,在多項語言能力測評基準上達到了和Vicuna 相當的效果(模型下載: https:// github.com/OptimalScale/LMFlow#model-zoo)。先前機器之心報道過 LMFlow 團隊在消費級顯示卡 3090 上只需 5 小時訓練專屬 ChatGPT,今天這一團隊聯合港大 NLP 實驗室又給我們帶來了多模態的驚喜。

以上是能看圖、會聊天,還會跨模態推理和定位,能落地複雜場景的DetGPT來了的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除