搜尋
首頁科技週邊人工智慧AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

給AI下指令時,總覺得和人溝通不太一樣?

沒錯,雖然AI能聽懂一些具體的人類指令,例如:

幫忙從餐廳搬個椅子過來。

但要是換成只有代名詞(他/她/它/這/那/東西…)和動詞的模糊指令,AI就一頭霧水了:

幫忙找個能墊腳的東西。

現在,終於有研究人員想出了一種新的應對方法:讓AI學會理解動詞不就行了?

動詞本身就和一些特定的名詞綁定,例如「抹黃油」這個動作肯定離不開「刀」、「叉」這樣的名詞。

只需要將它們進行匹配,不需要「刀叉」這類名詞指令,AI也能準確找出目標物:

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

##目前,這篇論文正式被NeurIPS 2022收錄,相關模型也已經開源:

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

所以它究竟是如何訓練AI理解動詞的?

遮住名詞讓AI「看圖找物」

論文提出了一個名叫TOIST的框架。

TOIST即「任務導向的實例分割Transformer」(Task Oriented Instance Segmentation Transformer),是一種基於Transformer的實例分割新方案。

實例分割與語意分割的「全圖切割」不同,它也具備目標偵測的特點,例如下圖憑藉著名詞「掀背車」(hatchback car),直接找出對應物體:

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

先前,實例分割模型通常分為“兩個步驟”,第一步檢測可能的目標,第二步對可能的目標進行排序,預測出最有可能的結果。

但與此方式不同,TOIST框架直接採用一整個Transformer架構,其中解碼器中的自註意力機制可以建立候選目標之間的偏好關係。

TOIST框架整體分為三個部分。

其中,多模態編碼器(棕色部分)負責提取特徵標記,Transformer編碼器(綠色部分)負責將兩種模態的特徵聚合起來,並基於Transformer解碼器(藍色部分)中的注意力機制來預測最適合的目標。

隨後,論文提出了一種新的名詞-代名詞蒸餾方法 (noun-pronoun distillation)來訓練模型。

具體來說,即基於知識蒸餾(上圖教師-學生模型)框架,以無監督學習的方式,訓練AI憑藉上下文來「猜測」名詞原型。

例如原本的實例分割任務是“用滑板挖洞”,但在訓練模型時,會把名詞“滑板”(skateboard)用代名詞“某個東西”(something)替換:

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

這樣AI在不知道名詞的時候,也能憑空猜出正確的名詞,並在圖中分割出正確的目標:

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

這樣的分割效果,在實際案例中表現如何?

目標偵測提升10.9%精確度

論文在大規模任務資料集COCO-Tasks上對TOIST進行了測試。

評估方法採用的是目標偵測等視覺任務中常見的mAP(mean Average Precision)。

簡單來說,TOIST比先前的實例分割和目標偵測模型SOTA模型表現更好,而有了名詞-代名詞蒸餾方法加成的「強化版」TOIST,表現又比TOIST更上一層樓。

其中在目標偵測任務上,相較於目前最好的Yolo GGNN,「強化版」TOIST的判定框精確度mAP提升了10.9%,在實例分割任務上,遮罩精準度則比Mask- RCNN GGNN高6.6%。

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

至於提出的名詞-代名詞蒸餾方法,相較於TOIST原版,在實例分割任務上分別提高了2.8%和3.8%的精確度。

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

具體到案例表現上,模型效果也與實際分割真值非常接近。

例如在圖(d)中,演算法甚至辨識出來了能用桌子開啤酒瓶蓋,可以說是理解能力滿分了:

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

對於做這項研究的初衷,作者回應稱:

我們實驗室其實是負責研究機器人的,但在平時的研究中發現,用戶有時會更傾向於給機器人描述“需求”,而不是直接告訴機器人要做什麼。

換而言之,就是用AI演算法讓機器人“多想一步”,而不是只是一個聽從命令的助手。

作者介紹

這篇論文的作者來自清華大學智慧產業研究院(AIR)、北京大學和英特爾研究院,AIR院長張亞勤也是作者之一。

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

論文一作李鵬飛,清華大學智慧產業研究院的在學博士生,本科畢業於中國科學院大學,研究方向為自動駕駛、電腦視覺等。

通訊作者趙昊,清華大學智慧產業研究院助理教授(incoming Assistant Professor)、英特爾中國研究院研究科學家、北大聯合博士後,本博畢業於清華大學電子工程系,研究興趣是機器人、電腦視覺方向。

AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉

論文網址:https://arxiv.org/abs/2210.10775

計畫網址:https://github.com/AIR-DISCOVER/ TOIST

以上是AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
AV字節:Openai' apple apple and visual ai等 - 分析vidhyaAV字節:Openai' apple apple and visual ai等 - 分析vidhyaApr 12, 2025 am 09:38 AM

介紹 本週,人工智能(AI)世界上充滿了重大更新。從OpenAI的O1模型展示高級推理到蘋果的開創性視覺智能技術,Tech

如何監視生產級代理抹布管道?如何監視生產級代理抹布管道?Apr 12, 2025 am 09:34 AM

介紹 2022年,Chatgpt的推出徹底改變了技術和非技術行業,從而使個人和組織具有生成性AI的能力。在2023年,努力集中在利用大語言模式

如何使用Star模式優化數據倉庫?如何使用Star模式優化數據倉庫?Apr 12, 2025 am 09:33 AM

Star模式是用於數據倉庫和商業智能的高效數據庫設計。它將數據組織到鏈接到周圍尺寸表的中心事實表中。這種類似恆星的結構簡化了複雜Q

構建多模式抹布系統的綜合指南構建多模式抹布系統的綜合指南Apr 12, 2025 am 09:29 AM

檢索增強生成系統(更名為抹布系統)已成為建立智能AI助手的事實上的標準

代理抹布系統如何改變技術?代理抹布系統如何改變技術?Apr 12, 2025 am 09:21 AM

介紹 人工智能進入了一個新時代。模型將基於預定義的規則輸出信息的日子已經一去不復返了。當今AI中的尖端方法圍繞抹布(檢索-Aigmente)

SQL自動生成查詢助手SQL自動生成查詢助手Apr 12, 2025 am 09:13 AM

您是否希望您可以簡單地與數據庫交談,用簡單的語言提出問題,並在不編寫複雜的SQL查詢或通過電子表格進行分類的情況下獲得即時答案?使用Langchain的SQL工具包,Groq A

閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。