搜索
首页科技周边人工智能让Siri不再智障!苹果定义新的端侧模型,'大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%

撰稿丨诺亚   

出品 | 51CTO技术栈(微信号:blog51cto)       

总被用户吐槽“有点智障”的Siri有救了!

Siri自诞生以来就是智能语音助手领域的代表之一,但很长一段时间里,其表现并不尽人意。然而,苹果的人工智能团队最新发布的研究成果有望极大地改变现状。这些成果令人兴奋,同时也引发了对该领域未来的极大期待。

在相关的研究论文中,苹果的AI专家们描述了一个系统,其中Siri不仅可以识别图像中的内容,还能做更多的事情,变得更加智能、更实用。这个功能模型被称为ReALM,它是基于GPT 4.0的标准,具有比GPT 4.0更优秀的基准能力。这些专家们认为,他们开发的这个模型是用于实现自己研发的一个功能的,它可以让Siri更智能,更实用,更加适用于各种场景。

一、动机:解决不同实体的指代解析

据苹果的研究团队指出:“让对话助手能够理解上下文,包括相关的内容指向,非常关键。能让用户根据他们所看到的屏幕内容进行提问,是确保实现语音操作体验的重要一步。”

打个比方,在人机交互过程中,用户常常会在对话中提及屏幕上的某个元素或内容,例如指示语音助手拨打电话号码、导航至地图上的特定地点、打开特定应用程序或网页等。如果对话助手无法理解用户指令背后的实体指代,就无法准确地执行这些命令。

而且人类对话中普遍存在模糊指代的现象,为了实现自然的人机交互,以及在用户与语音助手进行关于屏幕内容查询时准确理解语境,指代解析能力至关重要。

苹果在论文中提到的名为ReALM(Reference Resolution As Language Modeling)的模型,其优势就在于,它能够同时考虑用户屏幕上的内容和正在进行的任务,利用大语言模型解决不同类型实体(包括对话实体和非对话实体)的指代解析问题。

尽管传统的文本模态不便于处理屏幕上显示的实体,但ReALM系统通过将指代解析转化为语言建模问题,并成功运用LLMs来处理屏幕上非对话实体的指代,极大地推动了这一目标的达成。如此一来,便有望达成高度智能、更加沉浸的用户体验。

二、重构:突破传统文本模态的限制

传统的文本模态不便于处理屏幕上显示的实体,是因为屏幕上的实体通常包含丰富的视觉信息和布局结构,例如图像、图标、按钮及它们之间的相对位置关系等,这些信息在纯粹的文本描述中难以完全表达。

ReALM系统针对这一挑战,创造性地提出了通过解析屏幕上的实体及其位置信息来重建屏幕,并生成一种纯文本表示,这种文本能可视化地反映屏幕内容。

实体部分会被特别标记,以便语言模型了解实体出现在何处及其周围的文本是什么,这样就能模拟“看到”屏幕上的信息,并在理解和解析屏幕上的指代时提供必要的上下文信息。这种方法是首次尝试使用大型语言模型从屏幕内容中编码上下文,克服了传统文本模态难以处理的屏幕实体的问题。

具体来说,ReALM系统为了让大型语言模型能够“理解”并处理屏幕上显示的实体,采用了以下步骤:

首先,借助上层数据检测器提取屏幕文本中的实体,这些实体会带有类型、边界框以及实体周围非实体文本元素的列表。这意味着,对于屏幕上每一个可视化的实体,系统都会捕捉其基本信息和它所处的上下文环境。

然后,ReALM创新地提出了一种算法,通过将实体及其周围对象的边界框中心点按照垂直(从上至下)和水平(从左至右)的顺序排序,并稳定排列。若实体间距离较近,则认为它们在同一行内,并用制表符隔开;若距离超出设定的边距,则将它们置于下一行。这样,通过连续应用上述方法,就可以将屏幕内容按从左到右、从上到下的方式编码成纯文本格式,有效地保留了实体间的相对空间位置关系。

这样一来,原本难以直接被LLM处理的屏幕视觉信息转化成了适合语言模型输入的文本形式,使LLM能够在处理序列到序列的任务时,充分考虑到了屏幕实体的具体位置和上下文,从而实现对屏幕实体的正确识别和指代解析。

这使得ReALM系统不仅在解决对话实体的指代问题上表现出色,而且在处理非对话类实体——即屏幕上的实体时同样表现出了显著的性能提升。

三、细节:任务定义和数据集

简单来,ReALM系统面临的任务是,根据用户想要执行的任务,在给定的实体集合中,找出与当前用户查询相关的实体。

这个任务被构造成一个针对大型语言模型的选择题,期望从用户屏幕展示的实体中选择一个或多个选项作为答案。当然,在某些情况下,答案可能是“都不是”。

事实上,研究论文将任务涉及的实体分为三类:

1. 屏幕实体:是指当前在用户界面上可见的实体。

2. 对话实体:与对话内容相关的实体,可能来自用户的上一轮发言(如用户提到“呼叫妈妈”,则联系人列表中“妈妈”的条目就是相关实体),也可能由虚拟助手在对话中提供(如供用户选择的地点列表)。

3. 背景实体:源于后台进程,不一定直接体现在用户屏幕显示或与虚拟助手互动中的相关实体,例如预设会响起的闹钟或正在后台播放的音乐。

至于用于训练和测试ReALM的数据集,由合成数据和人工标注的数据组成,同样可划分为三类:

其一,对话数据集:包含了与用户与代理交互相关的实体的数据点。这些数据通过让评分员查看含有合成实体列表的截图,并要求他们提供明确指向列表中任意选定实体的查询来收集。

其二,合成数据集:采用模板生成法得到数据,特别是当用户查询和实体类型足以确定指代,无需依赖详细描述时,这种方法特别有用。合成数据集中也可以包含多个实体对应同一查询的情况。

其三,屏幕数据集:主要涵盖了用户屏幕上当前显示的实体的数据,每一条数据都包含用户查询、实体列表以及与该查询对应的正确实体(或实体集合)。每个实体的信息包括实体类型和其他属性,如名称以及其他与实体相关的文本细节(例如,闹钟的标签和时间)。

对于含有屏幕相关上下文的数据点,上下文信息以实体的边界框以及围绕该实体的其他对象列表的形式提供,同时附带这些周边对象的类型、文本内容和位置等属性信息。整个数据集的大小根据类别分为训练集和测试集,并且各具一定规模。

四、结果:最小的模型也取得了5%的性能提升

在基准测试中,苹果公司将自家系统与GPT 3.5和GPT 4.0进行了比较。ReALM模型在解决不同类型的指代解析任务方面表现出卓越的竞争力。

让Siri不再智障!苹果定义新的端侧模型,大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%图片

根据论文所述,即便是ReALM中参数最少的版本,相较于基线系统也实现了超过5%的性能提升。而在更大的模型版本上,ReALM则明显胜过GPT-4。特别是在处理屏幕上显示的实体时,随着模型规模的增加,ReALM在屏幕数据集上的性能提升更为显著。

另外,ReALM模型在全新领域的零样本学习场景上,其性能与GPT-4相当接近。而在处理特定领域的查询时,由于经过用户请求的微调,ReALM模型比GPT-4表现得更加精准。

比如,对于要求调整亮度这样的用户请求,GPT-4仅将该请求关联到设置,而忽略了背景中存在的智能家居设备也是相关实体,而ReALM因为接受了领域特有数据的训练,能够更好地理解并正确解析此类特定领域内的指代问题。

“我们证明了ReaLM超越了以往的方法,并且尽管参数数量远少于当前最先进的LLM——GPT-4,即使在纯粹基于文本领域处理屏幕内引用时,ReaLM也能达到与其相当的表现水平。此外,对于特定领域的用户话语,ReaLM的表现还优于GPT-4,因此,ReaLM可以说是在保证性能不打折扣的同时,适用于开发面向实际应用环境、可在设备本地高效运行的指代解析系统的首选方案。”    

此外,研究人员还表示,在资源有限、需要低延迟响应或者涉及多阶段集成如API调用等实际应用场景中,单一的大型端到端模型往往并不适用。

在这种背景下,模块化设计的ReALM系统更具有优势,允许在不影响整体架构的情况下,轻松替换和升级原有的指代解析模块,同时提供更好的优化潜力和可解释性。

面向未来,研究方向则指向了更为复杂的方法,比如将屏幕区域划分为网格并以文本形式编码空间相对位置,虽然颇具挑战性,但这是一种有前景的探索途径。

五、写在最后

在人工智能领域,苹果虽然一直比较谨慎,但也在默默投入。无论是多模态大模型MM1,还是AI驱动的动画生成工具Keyframer,再到如今的ReALM,苹果的研究团队一直在持续实现着技术突破。

围观谷歌、微软、亚马逊等竞争对手,纷纷在搜索、云服务、办公软件上加码AI,秀了一波又一波肌肉。苹果显然正努力不落人后。随着生成式AI落地成果不断涌现,苹果更是加快了追赶的步伐。早有知情人士透露,在6月举办的全球开发者大会上,苹果将聚焦于人工智能领域,新的人工智能战略极有可能成为iOS 18升级的核心内容。届时,说不定会给诸君带来惊喜。

参考链接:

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

以上是让Siri不再智障!苹果定义新的端侧模型,'大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
脱衣舞用法教程指南文章脱衣舞用法教程指南文章May 13, 2025 am 10:43 AM

有关使用distressai创建色情图片/视频的教程:1。打开相应的工具Web链接; 2。单击工具按钮; 3。根据页面提示上传所需的生产内容; 4。保存并享受结果。

[带AI的吉卜力风格图像]介绍如何使用Chatgpt和版权创建免费图像[带AI的吉卜力风格图像]介绍如何使用Chatgpt和版权创建免费图像May 13, 2025 am 01:57 AM

OpenAI发布的最新模型GPT-4o,不仅能生成文本,还具备图像生成功能,引发广泛关注。其中最受瞩目的功能便是“吉卜力风格插画”的生成。只需将照片上传至ChatGPT,并给出简单的指令,即可生成宛如吉卜力工作室作品般梦幻的图像。本文将详细解读实际操作流程、效果感受,以及需要注意的错误和版权问题。 OpenAI发布的最新模型“o3”详情请点击此处⬇️ OpenAI o3(ChatGPT o3)详解:特性、定价体系及o4-mini介绍 吉卜力风格文章的英文版请点击此处⬇️ 利用ChatGPT创作吉

解释在地方政府中使用和实施CANTGPT的示例!还介绍了禁止的地方政府解释在地方政府中使用和实施CANTGPT的示例!还介绍了禁止的地方政府May 13, 2025 am 01:53 AM

作为一种新的交流方法,在地方政府中使用和引入Chatgpt引起了人们的关注。尽管这种趋势在广泛的领域正在发展,但一些地方政府拒绝使用Chatgpt。 在本文中,我们将介绍地方政府中ChatGPT实施的示例。我们将通过各种改革实例,包括支持文件创建和与公民对话,从而探索如何通过各种改革实例来实现地方政府服务的质量和效率提高。 不仅旨在减少员工工作量并改善公民的便利性的地方政府官员,而且都对高级用例感兴趣。

chatgpt中的福卡式风格提示是什么?示例句子的详尽解释!chatgpt中的福卡式风格提示是什么?示例句子的详尽解释!May 13, 2025 am 01:52 AM

您是否听说过一个名为“福卡斯提示系统”的框架?诸如ChatGpt之类的语言模型非常出色,但是适当的提示对于发挥其潜力至关重要。福卡(Fukatsu)提示是旨在提高输出准确性的最受欢迎的提示技术之一。 本文解释了福卡式风格提示的原理和特征,包括特定的用法方法和示例。此外,我们还引入了其他众所周知的及时模板和有用的技术来及时设计,因此,根据这些设计,我们将介绍C。

什么是chatgpt搜索?解释主要功能,用法和费用结构!什么是chatgpt搜索?解释主要功能,用法和费用结构!May 13, 2025 am 01:51 AM

CHATGPT搜索:使用创新的AI搜索引擎有效获取最新信息! 在本文中,我们将彻底解释OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。让我们仔细研究一下功能,用法以及该工具如何根据实时网络信息和直观的易用性来帮助您提高信息收集效率。 chatgpt搜索提供了一种对话互动搜索体验,该体验在舒适,隐藏的环境中回答用户问题,以隐藏广告

易于理解的解释如何在Chatgpt和提示中创建构图!易于理解的解释如何在Chatgpt和提示中创建构图!May 13, 2025 am 01:50 AM

信息爆炸的现代社会,创作出令人信服的文章并非易事。如何在有限的时间和精力内,发挥创造力,撰写出吸引读者的文章,需要高超的技巧和丰富的经验。 这时,作为革命性的写作辅助工具,ChatGPT 备受瞩目。ChatGPT 利用庞大的数据训练出的语言生成模型,能够生成自然流畅、精炼的文章。 本文将介绍如何有效利用 ChatGPT,高效创作高质量文章的技巧。我们将逐步讲解使用 ChatGPT 的写作流程,并结合具体案例,详细阐述其优缺点、适用场景以及安全使用注意事项。ChatGPT 将成为作家克服各种障碍,

如何使用chatgpt创建图!还解释了插图的加载和插件如何使用chatgpt创建图!还解释了插图的加载和插件May 13, 2025 am 01:49 AM

使用AI创建图表的有效指南 视觉材料对于有效传达信息至关重要,但是创建它需要大量时间和精力。但是,由于AI技术(例如Chatgpt和dall-e 3)的兴起,图表创建过程正在发生巨大变化。本文使用这些尖端工具提供了有关有效而有吸引力的图创建方法的详细说明。它涵盖了从想法到完成的所有内容,并包含大量信息,可用于创建图表,从可以使用的特定步骤,提示,插件和API以及如何使用图像一代AI“ dall-e 3.”)

易于理解的解释Chatgpt加上定价结构和付款方式!易于理解的解释Chatgpt加上定价结构和付款方式!May 13, 2025 am 01:48 AM

解锁ChatGPT Plus:费用、支付方式及升级指南 全球瞩目的顶尖生成式AI,ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费,但付费版ChatGPT Plus提供多种增值服务,例如插件、图像识别等,显着提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击: GPT-4o图像生成详解:使用方法、提示词示例、商业应用及与其他AI的差异 目录 ChatGPT Plus费用 Ch

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

MinGW - 适用于 Windows 的极简 GNU

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中,你可以继续在那里关注我们。MinGW:GNU编译器集合(GCC)的本地Windows移植版本,可自由分发的导入库和用于构建本地Windows应用程序的头文件;包括对MSVC运行时的扩展,以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器