給AI下指令時,總覺得和人溝通不太一樣?
沒錯,雖然AI能聽懂一些具體的人類指令,例如:
幫忙從餐廳搬個椅子過來。
但要是換成只有代名詞(他/她/它/這/那/東西…)和動詞的模糊指令,AI就一頭霧水了:
幫忙找個能墊腳的東西。
現在,終於有研究人員想出了一種新的應對方法:讓AI學會理解動詞不就行了?
動詞本身就和一些特定的名詞綁定,例如「抹黃油」這個動作肯定離不開「刀」、「叉」這樣的名詞。
只需要將它們進行匹配,不需要「刀叉」這類名詞指令,AI也能準確找出目標物:
##目前,這篇論文正式被NeurIPS 2022收錄,相關模型也已經開源: 所以它究竟是如何訓練AI理解動詞的? 遮住名詞讓AI「看圖找物」論文提出了一個名叫TOIST的框架。 TOIST即「任務導向的實例分割Transformer」(Task Oriented Instance Segmentation Transformer),是一種基於Transformer的實例分割新方案。實例分割與語意分割的「全圖切割」不同,它也具備目標偵測的特點,例如下圖憑藉著名詞「掀背車」(hatchback car),直接找出對應物體:
先前,實例分割模型通常分為“兩個步驟”,第一步檢測可能的目標,第二步對可能的目標進行排序,預測出最有可能的結果。 但與此方式不同,TOIST框架直接採用一整個Transformer架構,其中解碼器中的自註意力機制可以建立候選目標之間的偏好關係。 TOIST框架整體分為三個部分。 其中,多模態編碼器(棕色部分)負責提取特徵標記,Transformer編碼器(綠色部分)負責將兩種模態的特徵聚合起來,並基於Transformer解碼器(藍色部分)中的注意力機制來預測最適合的目標。 隨後,論文提出了一種新的名詞-代名詞蒸餾方法 (noun-pronoun distillation)來訓練模型。 具體來說,即基於知識蒸餾(上圖教師-學生模型)框架,以無監督學習的方式,訓練AI憑藉上下文來「猜測」名詞原型。 例如原本的實例分割任務是“用滑板挖洞”,但在訓練模型時,會把名詞“滑板”(skateboard)用代名詞“某個東西”(something)替換:這樣AI在不知道名詞的時候,也能憑空猜出正確的名詞,並在圖中分割出正確的目標: 這樣的分割效果,在實際案例中表現如何? 目標偵測提升10.9%精確度論文在大規模任務資料集COCO-Tasks上對TOIST進行了測試。 評估方法採用的是目標偵測等視覺任務中常見的mAP(mean Average Precision)。 簡單來說,TOIST比先前的實例分割和目標偵測模型SOTA模型表現更好,而有了名詞-代名詞蒸餾方法加成的「強化版」TOIST,表現又比TOIST更上一層樓。 其中在目標偵測任務上,相較於目前最好的Yolo GGNN,「強化版」TOIST的判定框精確度mAP提升了10.9%,在實例分割任務上,遮罩精準度則比Mask- RCNN GGNN高6.6%。 至於提出的名詞-代名詞蒸餾方法,相較於TOIST原版,在實例分割任務上分別提高了2.8%和3.8%的精確度。 具體到案例表現上,模型效果也與實際分割真值非常接近。
例如在圖(d)中,演算法甚至辨識出來了能用桌子開啤酒瓶蓋,可以說是理解能力滿分了:
對於做這項研究的初衷,作者回應稱:
我們實驗室其實是負責研究機器人的,但在平時的研究中發現,用戶有時會更傾向於給機器人描述“需求”,而不是直接告訴機器人要做什麼。
換而言之,就是用AI演算法讓機器人“多想一步”,而不是只是一個聽從命令的助手。
這篇論文的作者來自清華大學智慧產業研究院(AIR)、北京大學和英特爾研究院,AIR院長張亞勤也是作者之一。
論文一作李鵬飛,清華大學智慧產業研究院的在學博士生,本科畢業於中國科學院大學,研究方向為自動駕駛、電腦視覺等。
通訊作者趙昊,清華大學智慧產業研究院助理教授(incoming Assistant Professor)、英特爾中國研究院研究科學家、北大聯合博士後,本博畢業於清華大學電子工程系,研究興趣是機器人、電腦視覺方向。
論文網址:https://arxiv.org/abs/2210.10775
計畫網址:https://github.com/AIR-DISCOVER/ TOIST
以上是AI理解不了「他她它」咋辦?動詞成為新突破口,機器人聽到抹黃油就知道拿刀叉的詳細內容。更多資訊請關注PHP中文網其他相關文章!