搜尋
首頁科技週邊人工智慧讓Siri不再智障!蘋果定義新的端側模型,「大大優於GPT-4,擺脫文本,可視化模擬螢幕訊息,最小參數模型相較基線系統仍提升5%

撰稿丨諾亞   

#出品| 51CTO技術堆疊(微訊號:blog51cto)       

#總是被使用者吐槽「有點智障」的Siri有救了!

Siri自誕生以來就是智慧語音助理領域的代表之一,但在很長一段時間裡,其表現並不盡如人意。然而,蘋果的人工智慧團隊最新發布的研究成果有望大幅改變現狀。這些成果令人興奮,同時也引發了對該領域未來的極大期待。

在相關的研究論文中,蘋果的AI專家們描述了一個系統,其中Siri不僅可以識別圖像中的內容,還能做更多的事情,變得更加智能、更實用。這個功能模型被稱為ReALM,它是基於GPT 4.0的標準,具有比GPT 4.0更優秀的基準能力。這些專家認為,他們開發的這個模型是用來實現自己研發的一個功能的,它可以讓Siri更智能,更實用,更適用於各種場景。

一、動機:解決不同實體的指涉解析

根據蘋果的研究團隊指出:「讓對話助手能夠理解上下文,包括相關的內容指向,非常關鍵。能讓用戶根據他們所看到的螢幕內容進行提問,是確保實現語音操作體驗的重要一步。」

#打個比方,在人機互動過程中,使用者常常會在對話中提及螢幕上的某個元素或內容,例如指示語音助理撥打電話號碼、導航至地圖上的特定地點、開啟特定應用程式或網頁等。如果對話助手無法理解使用者指令背後的實體指代,就無法準確地執行這些命令。

而且人類對話中普遍存在模糊指代的現象,為了實現自然的人機交互,以及在用戶與語音助手進行關於屏幕內容查詢時準確理解語境,指代解析能力至關重要。

蘋果在論文中提到的名為ReALM(Reference Resolution As Language Modeling)的模型,其優勢就在於,它能夠同時考慮用戶螢幕上的內容和正在進行的任務,利用大語言模型解決不同類型實體(包括對話實體和非對話實體)的指涉解析問題。

儘管傳統的文字模態不便於處理螢幕上顯示的實體,但ReALM系統透過將指涉解析轉換為語言建模問題,並成功運用LLMs來處理螢幕上非對話實體的指涉,極大地推動了這一目標的達成。如此一來,便可望達成高度智慧、更沉浸的使用者體驗。

二、重構:突破傳統文字模態的限制

傳統的文字模態不便於處理螢幕上顯示的實體,是因為螢幕上的實體通常包含豐富的視覺資訊和佈局結構,例如圖像、圖標、按鈕及它們之間的相對位置關係等,這些資訊在純粹的文字描述中難以完全表達。

ReALM系統針對這項挑戰,創造性地提出了透過解析螢幕上的實體及其位置資訊來重建螢幕,並產生一種純文字表示,這種文字能視覺化地反映螢幕內容。

實體部分會被特別標記,以便語言模型了解實體出現在何處及其周圍的文字是什麼,這樣就能模擬「看到」螢幕上的信息,並在理解和解析螢幕上的指涉時提供必要的上下文資訊。這種方法是首次嘗試使用大型語言模型從螢幕內容中編碼上下文,克服了傳統文本模態難以處理的螢幕實體的問題。

具體來說,ReALM系統為了讓大型語言模型能夠「理解」並處理螢幕上顯示的實體,採用了以下步驟:

首先,借助上層資料偵測器擷取螢幕文字中的實體,這些實體會帶有類型、邊界框以及實體周圍非實體文字元素的清單。這意味著,對於螢幕上每一個可視化的實體,系統都會捕捉其基本資訊和它所處的上下文環境。

然後,ReALM創新地提出了一種演算法,透過將實體及其周圍物件的邊界框中心點按照垂直(從上至下)和水平(從左到右)的順序排序,並穩定排列。若實體間距較近,則認為它們在同一行內,並用製表符隔開;若距離超出設定的邊距,則將它們置於下一行。這樣,透過連續應用上述方法,就可以將螢幕內容按從左到右、從上到下的方式編碼成純文字格式,有效地保留了實體間的相對空間位置關係。

這樣一來,原本難以直接被LLM處理的螢幕視覺訊息轉化成了適合語言模型輸入的文字形式,使LLM能夠在處理序列到序列的任務時,充分考慮到了螢幕實體的具體位置和上下文,從而實現對螢幕實體的正確識別和指涉解析。

這使得ReALM系統不僅在解決對話實體的指稱問題上表現出色,而且在處理非對話類實體——即螢幕上的實體時同樣表現出了顯著的性能提升。

三、細節:任務定義與資料集

簡單來,ReALM系統面臨的任務是,根據使用者想要執行的任務,在給定的實體集合中,找出與目前使用者查詢相關的實體。

這個任務被建構成一個針對大型語言模型的選擇題,期望從使用者畫面展示的實體中選擇一個或多個選項作為答案。當然,在某些情況下,答案可能是「都不是」。

事實上,研究論文將任務涉及的實體分為三類:

#1. 螢幕實體:是指目前在使用者介面上可見的實體。

2. 對話實體:與對話內容相關的實體,可能來自用戶的上一輪發言(如用戶提到“呼叫媽媽”,則聯絡人列表中“媽媽”的條目就是相關實體) ,也可能由虛擬助理在對話中提供(如供使用者選擇的地點清單)。

3. 背景實體:源自於背景進程,不一定直接體現在使用者螢幕顯示或與虛擬助理互動中的相關實體,例如預設會響起的鬧鐘或正在後台播放的音樂。

至於用於訓練和測試ReALM的資料集,由合成資料和手動標註的資料組成,同樣可劃分為三類:

其一,對話資料集:包含了與使用者與代理程式互動相關的實體的資料點。這些資料透過讓評分員查看含有合成實體清單的截圖,並要求他們提供明確指向清單中任意選定實體的查詢來收集。

其二,合成數據集:採用模板生成法得到數據,特別是當用戶查詢和實體類型足以確定指代,無需依賴詳細描述時,這種方法特別有用。合成資料集中也可以包含多個實體對應相同查詢的情況。

其三,螢幕數據集:主要涵蓋了用戶螢幕上目前顯示的實體的數據,每一條數據都包含用戶查詢、實體列表以及與該查詢對應的正確實體(或實體集合)。每個實體的資訊包括實體類型和其他屬性,如名稱以及其他與實體相關的文字細節(例如,鬧鐘的標籤和時間)。

對於含有螢幕相關上下文的資料點,上下文資訊以實體的邊界框以及圍繞該實體的其他物件清單的形式提供,同時附帶這些週邊物件的類型、文字內容和位置等屬性資訊。整個資料集的大小依類別分為訓練集和測試集,並且各具一定規模。

四、結果:最小的模型也取得了5%的效能提升

在基準測試中,蘋果公司將自家系統與GPT 3.5和GPT 4.0進行了比較。 ReALM模型在解決不同類型的指涉解析任務方面展現出卓越的競爭力。

讓Siri不再智障!蘋果定義新的端側模型,「大大優於GPT-4,擺脫文本,可視化模擬螢幕訊息,最小參數模型相較基線系統仍提升5%圖片

#根據論文所述,即使是ReALM中參數最少的版本,相較於基線系統也實現了超過5%的效能提升。而在更大的模型版本上,ReALM則明顯勝過GPT-4。特別是在處理螢幕上顯示的實體時,隨著模型規模的增加,ReALM在螢幕資料集上的效能提升更為顯著。

另外,ReALM模型在全新領域的零樣本學習場景上,其效能與GPT-4相當接近。而在處理特定領域的查詢時,由於經過使用者請求的微調,ReALM模型比GPT-4表現得更精準。

例如,對於要求調整亮度這樣的用戶請求,GPT-4僅將該請求關聯到設置,而忽略了背景中存在的智慧家庭設備也是相關實體,而ReALM因為接受了領域特有資料的訓練,能夠更好地理解並正確解析此類特定領域內的指涉問題。

「我們證明了ReaLM超越了以往的方法,並且儘管參數數量遠少於當前最先進的LLM——GPT-4,即使在純粹基於文本領域處理屏幕內在引用時,ReaLM也能達到與其相當的表現水準。此外,對於特定領域的使用者話語,ReaLM的表現還優於GPT-4,因此,ReaLM可以說是在保證性能不打折扣的同時,適用於開發方面實際應用環境、可在設備本地高效運行的指代解析系統的首選方案。”    

#此外,研究人員還表示,在資源有限、需要低延遲響應或涉及多階段整合如API呼叫等實際應用場景中,單一的大型端對端模型往往並不適用。

在這種背景下,模組化設計的ReALM系統更具優勢,允許在不影響整體架構的情況下,輕鬆替換和升級原有的指涉解析模組,同時提供更好的優化潛力和可解釋性。

#

面向未來,研究方向則指向了更複雜的方法,例如將螢幕區域劃分為網格並以文字形式編碼空間相對位置,雖然頗具挑戰性,但這是一種有前景的探索途徑。

五、寫在最後

在人工智慧領域,蘋果雖然一直比較謹慎,但也在默默投入。無論是多模態大模型MM1,還是AI驅動的動畫生成工具Keyframer,再到現今的ReALM,蘋果的研究團隊一直持續實現技術突破。

圍觀Google、微軟、亞馬遜等競爭對手,紛紛在搜尋、雲端服務、辦公室軟體上加碼AI,秀了一波又一波肌肉。蘋果顯然正努力不落人後。隨著生成式AI落地成果不斷湧現,蘋果更是加快了追趕的腳步。早有知情人士透露,在6月舉辦的全球開發者大會上,蘋果將聚焦於人工智慧領域,新的人工智慧策略極有可能成為iOS 18升級的核心內容。屆時,說不定會帶給諸君驚喜。

參考連結:

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful -on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

#

以上是讓Siri不再智障!蘋果定義新的端側模型,「大大優於GPT-4,擺脫文本,可視化模擬螢幕訊息,最小參數模型相較基線系統仍提升5%的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
[帶AI的吉卜力風格圖像]介紹如何使用Chatgpt和版權創建免費圖像[帶AI的吉卜力風格圖像]介紹如何使用Chatgpt和版權創建免費圖像May 13, 2025 am 01:57 AM

OpenAI發布的最新模型GPT-4o,不僅能生成文本,還具備圖像生成功能,引發廣泛關注。其中最受矚目的功能便是“吉卜力風格插畫”的生成。只需將照片上傳至ChatGPT,並給出簡單的指令,即可生成宛如吉卜力工作室作品般夢幻的圖像。本文將詳細解讀實際操作流程、效果感受,以及需要注意的錯誤和版權問題。 OpenAI發布的最新模型“o3”詳情請點擊此處⬇️ OpenAI o3(ChatGPT o3)詳解:特性、定價體系及o4-mini介紹 吉卜力風格文章的英文版請點擊此處⬇️ 利用ChatGPT創作吉

解釋在地方政府中使用和實施CANTGPT的示例!還介紹了禁止的地方政府解釋在地方政府中使用和實施CANTGPT的示例!還介紹了禁止的地方政府May 13, 2025 am 01:53 AM

作為一種新的交流方法,在地方政府中使用和引入Chatgpt引起了人們的關注。儘管這種趨勢在廣泛的領域正在發展,但一些地方政府拒絕使用Chatgpt。 在本文中,我們將介紹地方政府中ChatGPT實施的示例。我們將通過各種改革實例,包括支持文件創建和與公民對話,從而探索如何通過各種改革實例來實現地方政府服務的質量和效率提高。 不僅旨在減少員工工作量並改善公民的便利性的地方政府官員,而且都對高級用例感興趣。

chatgpt中的福卡式風格提示是什麼?示例句子的詳盡解釋!chatgpt中的福卡式風格提示是什麼?示例句子的詳盡解釋!May 13, 2025 am 01:52 AM

您是否聽說過一個名為“福卡斯提示系統”的框架?諸如ChatGpt之類的語言模型非常出色,但是適當的提示對於發揮其潛力至關重要。福卡(Fukatsu)提示是旨在提高輸出準確性的最受歡迎的提示技術之一。 本文解釋了福卡式風格提示的原理和特徵,包括特定的用法方法和示例。此外,我們還引入了其他眾所周知的及時模板和有用的技術來及時設計,因此,根據這些設計,我們將介紹C。

什麼是chatgpt搜索?解釋主要功能,用法和費用結構!什麼是chatgpt搜索?解釋主要功能,用法和費用結構!May 13, 2025 am 01:51 AM

CHATGPT搜索:使用創新的AI搜索引擎有效獲取最新信息! 在本文中,我們將徹底解釋OpenAI提供的新的ChatGpt功能“ ChatGpt搜索”。讓我們仔細研究一下功能,用法以及該工具如何根據實時網絡信息和直觀的易用性來幫助您提高信息收集效率。 chatgpt搜索提供了一種對話互動搜索體驗,該體驗在舒適,隱藏的環境中回答用戶問題,以隱藏廣告

易於理解的解釋如何在Chatgpt和提示中創建構圖!易於理解的解釋如何在Chatgpt和提示中創建構圖!May 13, 2025 am 01:50 AM

信息爆炸的現代社會,創作出令人信服的文章並非易事。如何在有限的時間和精力內,發揮創造力,撰寫出吸引讀者的文章,需要高超的技巧和豐富的經驗。 這時,作為革命性的寫作輔助工具,ChatGPT 備受矚目。 ChatGPT 利用龐大的數據訓練出的語言生成模型,能夠生成自然流暢、精煉的文章。 本文將介紹如何有效利用 ChatGPT,高效創作高質量文章的技巧。我們將逐步講解使用 ChatGPT 的寫作流程,並結合具體案例,詳細闡述其優缺點、適用場景以及安全使用注意事項。 ChatGPT 將成為作家克服各種障礙,

如何使用chatgpt創建圖!還解釋了插圖的加載和插件如何使用chatgpt創建圖!還解釋了插圖的加載和插件May 13, 2025 am 01:49 AM

使用AI創建圖表的有效指南 視覺材料對於有效傳達信息至關重要,但是創建它需要大量時間和精力。但是,由於AI技術(例如Chatgpt和dall-e 3)的興起,圖表創建過程正在發生巨大變化。本文使用這些尖端工具提供了有關有效而有吸引力的圖創建方法的詳細說明。它涵蓋了從想法到完成的所有內容,並包含大量信息,可用於創建圖表,從可以使用的特定步驟,提示,插件和API以及如何使用圖像一代AI“ dall-e 3.”)

易於理解的解釋Chatgpt加上定價結構和付款方式!易於理解的解釋Chatgpt加上定價結構和付款方式!May 13, 2025 am 01:48 AM

解锁ChatGPT Plus:费用、支付方式及升级指南 全球瞩目的顶尖生成式AI,ChatGPT已广泛应用于日常生活和商业领域。虽然ChatGPT基本免费,但付费版ChatGPT Plus提供多种增值服务,例如插件、图像识别等,显著提升工作效率。本文将详细解读ChatGPT Plus的收费标准、支付方式及升级流程。 OpenAI最新图像生成技术“GPT-4o图像生成”详情请点击: GPT-4o图像生成详解:使用方法、提示词示例、商业应用及与其他AI的差异 目录 ChatGPT Plus费用 Ch

解釋如何使用chatgpt創建設計!我們還介紹了使用和提示示例解釋如何使用chatgpt創建設計!我們還介紹了使用和提示示例May 13, 2025 am 01:47 AM

如何使用Chatgpt簡化您的設計工作並提高創造力 本文將詳細說明如何使用ChatGpt創建設計。我們將介紹在各個設計領域中使用Chatgpt的示例,例如思想,文本生成和網頁設計。我們還將介紹可以幫助您提高各種創意作品的效率和質量(例如圖形設計,插圖和徽標設計)的效率和質量。請看一下AI如何大大擴展您的設計可能性。 目錄 chatgpt:設計創建的強大工具

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器