搜索
首页科技周边人工智能「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

在大型语言模型(LLM)的支持下,与视觉结合的多模态任务,例如图像描述、视觉问答(VQA)和开放词汇目标识别(open-vocabulary object detection)等方面都取得了显着的进展

不过目前视觉语言模型(VLM)基本都只是利用图像内的视觉信息来完成任务,在inforseek和OK-VQA等需要外部知识辅助问答的数据集上往往表现不佳。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

最近谷歌发表了一个全新的自主视觉信息搜索方法AVIS,利用大型语言模型(LLM)来动态地制定外部工具的使用策略,包括调用API、分析输出结果、决策等操作为图像问答提供关键知识。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

请点击以下链接阅读论文:https://arxiv.org/pdf/2306.08129.pdf

AVIS主要整合了三种类型的工具:

1. 从图像中提取视觉信息的工具

2. 检索开放世界知识和事实的网络搜索工具

3. 图像搜索工具,可用于检索视觉上相似的图像

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

然后使用基于大型语言模型的规划器在每个步骤中选择一个工具和查询结果,动态地生成问题答案。

模拟人类决策

Infoseek和OK-VQA数据集中的许多视觉问题甚至对人类来说都相当难,通常需要各种外部工具的辅助,所以研究人员选择先进行一项用户调研,观察人类在解决复杂视觉问题时的解决方案。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

首先,我们会为用户提供一套可用的工具集,其中包括PALI、PALM和网络搜索。接下来,我们会展示输入图像、问题、检测到的物体裁剪图、图像搜索结果的链接知识图谱实体、相似的图像标题、相关的产品标题以及图像描述

接着,研究人员会记录用户的操作和输出,并采用两种方式来引导系统做出回答:

1. 通过分析用户做出的决策序列来构建转换图,其中包含不同的状态,每个状态下的可用操作集都不同。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

重写内容:AVIS转换图 重新设计的AVIS转换图是一个图形化的表示,用于展示AVIS的转换过程。这个图表清晰地展示了AVIS的各个阶段和步骤,并且以易于理解的方式呈现给用户。通过这个转换图,用户可以更好地了解AVIS的工作原理和操作流程。这个图表的设计简洁明了,使得用户能够快速地掌握AVIS的转换过程。无论是初学者还是有经验的用户,都可以通过这个AVIS转换图轻松地理解和应用转换过程

例如在开始状态下,系统只能执行三个操作:PALI描述、PALI VQA或目标检测。

为了提高系统的性能和有效性,可以使用人类决策的样例来引导规划器和推理器与相关的上下文实例进行交互

总体框架

AVIS方法采用了一种动态的决策策略,旨在对视觉信息的查询做出响应

该系统包含三个主要组成部分:

需要重新写的内容是:1. 规划器(planner),用于确定后续操作,包括适当的API调用和需要处理的查询

2. 运行记忆(working memory)工作内存,保留了从API执行中获得的结果信息。

3. 推理器(reasoner)用于处理API调用的输出,可以判断所获得的信息是否足以生成最终响应,或者是否需要进行额外的数据检索

每次需要决定使用哪个工具以及向系统发送哪些查询时,规划器都会执行一系列操作;根据当前的状态,规划器还会提供潜在的后续动作

为了解决由于潜在的动作空间可能过多,导致搜索空间过大的问题,规划器需要参考转换图来消除不相关的动作,排除之前已经采取并存储在工作记忆中的动作。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

然后由规划器从用户研究数据中组装出一套上下文示例,结合之前工具交互的记录,由规划器制定提示后输入到语言模型中,LLM再返回一个结构化的答案,确定要激活的下一个工具以及派发的查询。

可以通过多次调用规划器来推动动态决策,并逐步生成答案的整个设计流程

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

研究人员使用推理器来分析工具执行的输出,提取有用的信息,并决定工具输出的类别:提供信息的、不提供信息的或最终答案

如果推理器返回结果是「提供答案」,则直接输出作为最终结果,结束任务;如果结果是无信息,则退回规划器,并基于当前状态选择另一个动作;如果推理器认为工具输出是有用的,则修改状态并将控制权转移回规划器,以在新状态下做出新的决定。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

AVIS采用动态决策策略来响应视觉信息搜索查询

实验结果

需要重写的内容是:工具集合

使用PALI 17B模型,图像描述模型可以为输入图像和检测到的物体裁剪图像生成描述

视觉问题回答模型,使用 PALI 17B VQA 模型,将图像和问题作为输入,并将基于文本的答案作为输出。

物体检测,使用在Open Images数据集的超集上训练的物体检测器,具体类别Google Lens API提供;使用高置信度阈值,只保留 输入图像中排名靠前的检测框。

使用Google图像搜索来获取与检测到的方框相关的图像裁剪信息

在进行决策时,规划器将每条信息的利用都视为一项单独的操作,因为每条信息可能包含数百个token,需要进行复杂的处理和推理。

在某些情况下,图像可能包含文字内容,例如街道名称或品牌名称。您可以使用Google Lens API中的光学字符识别(OCR)功能来提取这些文本

通过使用谷歌搜索API进行网络搜索,可以输入文本查询,并获得相关文档链接和片段的输出结果,同时还可以提供一个知识图谱面板,其中包含直接答案,以及最多五个与输入查询相关的问题

实验结果

研究人员在Infoseek和OK-VQA数据集上对AVIS框架进行了评估,从结果中可以看到,即使是健壮性非常好的视觉语言模型,如OFA和PALI模型,在Infoseek数据集上进行微调后也无法获得高准确性。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

在没有进行微调的情况下,AVIS方法成功达到了50.7%的准确率

在OK-VQA数据集上,AVIS系统在few-shot设置下实现了60.2%的准确率,仅次于微调后的PALI模型。

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

OK-VQA中的大多数问答示例依赖于常识知识而非细粒度知识,因此性能上的差异可能是由于这一点。PALI能够利用在模型参数中编码的通用知识,而无需依赖外部知识的辅助

「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍

AVIS的一个关键特性是能够动态地做出决策,而非执行固定的序列,从上面的样例中可以看出AVIS在不同阶段使用不同工具的灵活性。

值得注意的是,文中推理器设计使AVIS能够识别不相关的信息,回溯到以前的状态,并重复搜索。

例如,在关于真菌分类学的第二个例子中,AVIS最初通过选择叶子对象做出了错误的决定;推理器发现与问题无关后,促使AVIS重新规划,然后成功地选择了与假火鸡尾真菌有关的对象,从而得出了正确的答案,Stereum

结论

研究人员提出了一种新的方法AVIS,将LLM作为装配中心,使用各种外部工具来回答知识密集型的视觉问题。

在这种方法中,研究人员选择使用从用户研究中收集的人类决策数据作为锚定点,采用结构化的框架,并使用基于LLM的规划器来动态决定工具选择和查询形成

LLM驱动的推理器可以从所选工具的输出中处理和提取关键信息,通过迭代地使用规划器和推理器来选择不同的工具,直到收集到回答视觉问题所需的所有必要信息

以上是「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
1 个月前By尊渡假赌尊渡假赌尊渡假赌

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能