搜尋
首頁科技週邊人工智慧「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

在大型语言模型(LLM)的支持下,与视觉结合的多模态任务,例如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等方面都取得了显著的进展

不过目前视觉语言模型(VLM)基本都只是利用图像内的视觉信息来完成任务,在inforseek和OK-VQA等需要外部知识辅助问答的数据集上往往表现不佳。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

最近谷歌发表了一个全新的自主视觉信息搜索方法AVIS,利用大型语言模型(LLM)来动态地制定外部工具的使用策略,包括调用API、分析输出结果、决策等操作为图像问答提供关键知识。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

请点击以下链接阅读论文:https://arxiv.org/pdf/2306.08129.pdf

AVIS主要整合了三种类型的工具:

1. 从图像中提取视觉信息的工具

2. 检索开放世界知识和事实的网络搜索工具

3. 图像搜索工具,可用于检索视觉上相似的图像

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

然后使用基于大型语言模型的规划器在每个步骤中选择一个工具和查询结果,动态地生成问题答案。

模拟人类决策

Infoseek和OK-VQA数据集中的许多视觉问题甚至对人类来说都相当难,通常需要各种外部工具的辅助,所以研究人员选择先进行一项用户调研,观察人类在解决复杂视觉问题时的解决方案。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

首先,我们会为用户提供一套可用的工具集,其中包括PALI、PALM和网络搜索。接下来,我们会展示输入图像、问题、检测到的物体裁剪图、图像搜索结果的链接知识图谱实体、相似的图像标题、相关的产品标题以及图像描述

接着,研究人员会记录用户的操作和输出,并采用两种方式来引导系统做出回答:

1. 通过分析用户做出的决策序列来构建转换图,其中包含不同的状态,每个状态下的可用操作集都不同。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

重写内容:AVIS转换图 重新设计的AVIS转换图是一个图形化的表示,用于展示AVIS的转换过程。这个图表清晰地展示了AVIS的各个阶段和步骤,并且以易于理解的方式呈现给用户。通过这个转换图,用户可以更好地了解AVIS的工作原理和操作流程。这个图表的设计简洁明了,使得用户能够快速地掌握AVIS的转换过程。无论是初学者还是有经验的用户,都可以通过这个AVIS转换图轻松地理解和应用转换过程

例如在开始状态下,系统只能执行三个操作:PALI描述、PALI VQA或目标检测。

为了提高系统的性能和有效性,可以使用人类决策的样例来引导规划器和推理器与相关的上下文实例进行交互

总体框架

AVIS方法采用了一种动态的决策策略,旨在对视觉信息的查询做出响应

该系统包含三个主要组成部分:

需要重新寫的內容是:1. 規劃器(planner),用於確定後續操作,包括適當的API呼叫和需要處理的查詢

2 . 運行記憶(working memory)工作內存,保留了從API執行中獲得的結果資訊。

3. 推理器(reasoner)用於處理API呼叫的輸出,可以判斷所獲得的資訊是否足以產生最終回應,或者是否需要進行額外的資料檢索

每次需要決定使用哪個工具以及向系統發送哪些查詢時,規劃器都會執行一系列操作;根據當前的狀態,規劃器還會提供潛在的後續動作

為了解決由於潛在的動作空間可能過多,導致搜尋空間過大的問題,規劃器需要參考轉換圖來消除不相關的動作,排除先前已經採取並儲存在工作記憶中的動作。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

然後由規劃器從使用者研究資料中組裝出一套上下文範例,結合先前工具互動的記錄,由規劃器製定提示後輸入到語言模型中,LLM再回傳一個結構化的答案,決定要啟動的下一個工具以及派發的查詢。

可以透過多次呼叫規劃器來推動動態決策,並逐步產生答案的整個設計流程

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

研究者使用推理器來分析工具執行的輸出,提取有用的信息,並決定工具輸出的類別:提供資訊的、不提供資訊的或最終答案

如果推理器返回結果是「提供答案」,則直接輸出作為最終結果,結束任務;如果結果是無訊息,則退回規劃器,並基於當前狀態選擇另一個動作;如果推理器認為工具輸出是有用的,則修改狀態並將控制權轉移回規劃器,以在新狀態下做出新的決定。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

AVIS採用動態決策策略來回應視覺資訊搜尋查詢

實驗結果

#需要重寫的內容是:工具集合

使用PALI 17B模型,影像描述模型可以為輸入影像和偵測到的物件裁切影像產生描述

視覺問題回答模型,使用PALI 17B VQA 模型,將圖像和問題作為輸入,並將基於文字的答案作為輸出。

物件偵測,使用在Open Images資料集的超集上訓練的物件偵測器,具體類別Google Lens API提供;使用高置信度閾值,只保留輸入影像中排名靠前的檢測框。

使用Google影像搜尋來取得與偵測到的方塊相關的影像裁切資訊

在進行決策時,規劃器將會每訊息的利用被視為一項單獨的操作,因為每個訊息可能包含數百個token,需要進行複雜的處理和推理。

在某些情況下,圖片可能包含文字內容,例如街道名稱或品牌名稱。您可以使用Google Lens API中的光學字元辨識(OCR)功能來提取這些文字

#透過使用Google搜尋API進行網路搜索,可以輸入文字查詢,並獲得相關文件鏈接和片段的輸出結果,同時還可以提供一個知識圖譜面板,其中包含直接答案,以及最多五個與輸入查詢相關的問題

##實驗結果

研究人員在Infoseek和OK-VQA資料集上對AVIS框架進行了評估,從結果中可以看到,即使是健全性非常好的視覺語言模型,如OFA和PALI模型,在Infoseek資料集上進行微調後也無法獲得高準確性。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

在沒有微調的情況下,AVIS方法成功達到了50.7%的準確率

在OK-VQA數據集上,AVIS系統在few-shot設定下實現了60.2%的準確率,僅次於微調後的PALI模型。

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

OK-VQA中的大多數問答範例依賴於常識知識而非細粒度知識,因此效能上的差異可能是由於這一點。 PALI能夠利用在模型參數中編碼的通用知識,而無需依賴外部知識的輔助

「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍

#AVIS的一個關鍵特性是能夠動態地做出決策,而非執行固定的序列,從上面的範例可以看出AVIS在不同階段使用不同工具的彈性。

值得注意的是,文中推理器設計使AVIS能夠識別不相關的信息,回溯到以前的狀態,並重複搜尋。

例如,在關於真菌分類學的第二個例子中,AVIS最初透過選擇葉子物件做出了錯誤的決定;推理器發現與問題無關後,促使AVIS重新規劃,然後成功地選擇了與假火雞尾真菌有關的對象,從而得出了正確的答案,Stereum

#結論

研究人員提出了一種新的方法AVIS,將LLM作為組裝中心,使用各種外部工具來回答知識密集的視覺問題。

在這種方法中,研究人員選擇使用從使用者研究中收集的人類決策資料作為錨定點,採用結構化的框架,並使用基於LLM的規劃器來動態決定工具選擇和查詢形成

LLM驅動的推理器可以從所選工具的輸出中處理和提取關鍵信息,透過迭代地使用規劃器和推理器來選擇不同的工具,直到收集到回答視覺問題所需的所有必要資訊

以上是「知識型圖像問答」微調也沒用?谷歌發布搜尋系統AVIS:少樣本超越監督PALI,準確率提升三倍的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能