文/VR陀螺 元橋
在今年蘋果開發者大會(WWDC 2023)上,庫克(Tim Cook)延續了賈伯斯「one more thing」的表達發布了新一代空間計算產品——Apple Vision Pro。
這是一個值得讓人紀念的歷史性時刻,看到了另一個“one more thing”時刻來臨,更重要的是人機界面技術在蘋果發布新品之後會將迎來全新的發展,人類在虛擬/擴增實境層面的腳步又前進了一步。
之所以說「又」是因為在蘋果未發布新品之前,OpenAI推出了ChatGPT以及GPT大模型,讓人類徹底感受到AI能力的不凡,相應地AI技術在AR/VR領域的應用也凸顯了出來,甚至帶來了新一輪產業格局的改變。
AI 便被視為虛擬/擴增實境產業發展的關鍵因素,更是推動產業走深的底層技術,而蘋果一直作為產業「遊戲規則的製定者」在AI層面的佈局亦甚為久遠。雖然在今年WWDC 2023大會上,蘋果隻字未提人工智慧,但從此次發表會上的產品以及新品Vision Pro中便能夠窺探出一二。
蘋果超十年的AI版面
6月2日,根據外媒馬克・古爾曼的推特表示蘋果正在招募人工智慧方面的人才,而據外媒消息顯示,自5月以來蘋果在招聘門戶網站上發布了至少88個與人工智慧相關的職位,涵蓋視覺生成建模、主動智慧和應用AI研究等領域。
圖:馬克・古爾曼推特
所招募的職位隸屬於一個團隊,該團隊將“塑造生成式人工智慧技術改變蘋果行動運算平台的方式”,進一步表明iPhone以及Vision Pro等產品中的AI應用將會進一步擴展。
但蘋果在人工智慧層面的佈局其實更早,2010年蘋果以2億美元的價格收購了Siri團隊,並於2011年,隨著iPhone 4s的發布,Siri以智慧語音助理的身份亮相市場,如今已擴展到Mac、iPad甚至新發布的產品Vision Pro中。
圖:Vision Pro中呼喚Siri(來源:網路)
圖表:蘋果收購一覽(VR陀螺整理)
這種簡單的操作相比如今會寫稿、會編程的ChatGPT很容易讓人忘記其實Siri也是人工智慧,只是它與ChatGPT的工作原理不同。 Siri的一大工作原理是當它接收到指令後,會優先傳送到蘋果的資料中心,資料中心會根據指令的內容進行分析,給出已知的答案;其次就是上傳到雲端,給出答案“我不太清楚,但我從網路上找到了這些資訊」等等。 ChatGPT沒有本地處理流程,它直接依賴龐大的計算和模型推理,無論是否理解指令的含義,都能給出答案。
圖源:網路
蘋果向來對AI的發展都處於謹慎的態度,更喜歡強調機器學習功能以及為用戶提供好處,正如此次WWDC 2023大會上,庫克在接受媒體採訪時所稱“我們確實將它(AI)整合到我們的產品中,但人們不一定將其視為人工智慧。」正因為如此,蘋果才會限制Siri無節制發展。
另一方面,蘋果的AI戰略更注重兩點:效能與安全。在性能層面,蘋果會將AI融入產品中,提高產品的使用效果;而安全則是隱私,隱私是蘋果歷來注重的一個點,如2015年蘋果收購Perceptio,這家公司主要從事人工智慧照片分類,但除了圖片自動分類外,Perceptio還可以保護隱私,無需將用戶資料儲存在雲端。
2020年,蘋果機器學習和人工智慧策略的高級副總裁John Giannandrea以及產品行銷副總裁Bob Borchers在一次訪談中便肯定了蘋果的AI戰略,並表示2018年蘋果就加快了這一進程,讓iPhone 中的ISP 與神經引擎緊密合作(中央處理器),只是蘋果不會向外說太多自己的AI能力,強調的則是Transformer 語言模型、機器學習等。
圖:John Giannandrea(資料來源:網路)
而Giannandrea和Borchers也清楚地表明:如今,機器學習在蘋果的產品功能中發揮了重要作用,機器學習在蘋果的應用還會繼續增強。
Apple Vision Pro中透露的AI能力
在生成式AI爆火的今年,許多業內人士都預測稱今年的WWDC 2023大會,蘋果可能也會會談及AI,但在近2小時的發布會上,AI一次都未被提及,只是在其產品中無所不在。陀螺君針對Vision Pro所展現的AI能力進行了梳理,不難看出AR/VR若想進一步發展,必然也離不開AI技術的支持。
1.AI數字分身
AI的存取讓數位人製作更加逼真,甚至在某些網站上,使用者也可以根據自己的需求創建符合自己需求的數位人,而3D虛擬數位人也是VR頭顯進一步發展避不開的一節。 Meta已經發布了Codec Avatar 2.0版本,該版本在數位人的逼真效果方面比1.0更加完善。
圖源:網路
Vision Pro則是透過前置鏡頭掃描人的臉部訊息,再基於機器學習技術,系統會使用先進的編碼神經網絡,為使用者產生一個「數位分身」。且當使用者正透過FaceTime通話時,數位分身可以動態模仿使用者的臉部和手部的動作,保留數位分身的體積感和深度。
圖源:網路
蘋果表示,他們的團隊正在積極優化該功能,並將在未來的visionOS更新中使數位人看起來更加真實。另一方面,從發布會上的使用效果來看,數位分身的構建確實已經很逼真了,而且操作上也更加簡單,僅需用設備掃一掃面部信息即可,可以說已經超越了目前市面上一些數位分身軟體。
2.AI情緒偵測
#蘋果在2016年就收購了一家AI情緒檢測的公司,而今年根據外媒消息顯示,蘋果正在研發一種名為Quartz的人工智慧健康指導服務與追蹤情緒的新技術。
在此次Vision Pro發布後,蘋果前研究員Sterling Crispin在推特中,透露了不少關於Vision Pro的黑科技。其中最令人驚嘆的便是Vision Pro可以透過使用者在沉浸式體驗中的身體和腦部數據,來偵測使用者的心理狀態。 “Brain-computer interface” or "mind reading" is how Sterling Crispin refers to it.。
圖:Sterling Crispin的推特資訊
而這項技術背後的主要原理則是,每個人在做每件事之前,瞳孔會做出反應,其中部分原因是你預計在你點擊之後會發生一些事情。因此,蘋果可以透過演算法來監視你的眼睛行為。重寫後的句子: 透過即時重新設計UI,以產生更多預期的瞳孔反應,從而創造個人大腦的生物回饋。
圖源:網路
3.更聰明的輸入方式
為了進一步滿足用戶對指引功能和空間內容的交互,Vision Pro引入了全新的輸入系統,即由眼睛、手勢和語音來進行交互,透過注視應用,「輕敲/輕拂」的手勢進行應用的選擇,或使用語音指令瀏覽應用。
圖源:網路
當眼睛注視到瀏覽器搜尋框時,搜尋框即進入聽寫輸入狀態,此時只需語音說出想要檢索的內容,即可自動鍵入文本,進而進行搜尋。使用 Siri 還能快速開啟和關閉 app,播放媒體檔案等。
圖源:網路
雖然蘋果並沒有在Vision Pro介紹中強調輸入法,但從iOS 17的介紹中可知,蘋果更新的更加智能的輸入法,不僅可以糾正拼寫錯誤,甚至還可以糾正用戶在輸入過程中的語法錯誤。更重要的是,基於裝置端的機器學習,輸入法還會根據使用者每一次的鍵入自動改進模型,將輸入法的自動修正功能達到了前所未有的準確度。
圖源:網路
4.新的作業系統「visionOS」
根據蘋果表示,建立在macOS、iOS和iPadOS的研發基礎上,他們從零開始為Vision Pro設計了新的作業系統VisionOS,以實現對低延遲要求非常高的空間運算能力;分別內嵌了iOS框架、空間運算框架、空間音訊引擎、3D空間引擎、注視點渲染引擎、即時驅動的子系統等。
圖源:網路
根據蘋果透露, visionOS將會有全新的 AppStore,未來會有更多專門針對 Vision Pro 開發的應用,例如 3D 解剖圖等。
從以上可以看出Vision Pro的創新離不開AI的發展,在Vision Pro的空間音頻計算、眼球動作以及手部行為的捕捉,這些都是人工智能技術所發力的領域,蘋果憑藉著M2和R1兩顆晶片提供的算力支撐,順利實現了人工智慧的在地化部署。
圖源:網路
而除了在Vision Pro隱藏了無處不在的AI能力外,蘋果的所有產品幾乎都能看到AI的技術,AI幾乎已經滲透到了其產品的各個細節中,進一步表明了“AI ”在AR/VR層面發展的重要性。
雖然蘋果隻字未提AI,但庫克在一次訪談中表示「他個人正在使用ChatGPT 並對這個獨特應用程式感到興奮,並表示蘋果目前正密切關注該工具。」庫克還補充說,「大型語言模型顯示出巨大的希望,但也有可能出現諸如偏見、錯誤訊息之類的事情,而且在某些情況下可能更糟。」
在筆者看來,AI作為一項技術本就該用於提升產品的性能,更好地為人類服務,過多的炒作或宣傳反而失去了這項技術本該有的樣子。同時,人工智慧或機器學習在未來會變得更加普遍,對於生成式AI,蘋果或許並沒有以大眾希望的樣子而展開,但相信蘋果默默將其融於產品後一定可以提升用戶的體驗,讓人眼前一亮。
“AI ”,AR/VR發展關鍵的一環
之前陀螺君曾在一篇文章中分析過「AI 」對產業競爭格局的影響,可點擊閱讀《 攪局者GPT-4已來,AR產業競爭格局邁入新維度》,但拋開產業競爭格局來看,「AI 」也會為AR/VR設備的效能帶來更大的提升。
今年,Meta發布了用於圖像分割的新模型Segment Anything Model (SAM),根據Meta博客表示,SAM已經學會了關於物體的一般概念,並且它可以為任何圖像或視頻中的任何物體生成mask,甚至包括在訓練過程中沒有遇到的物體和圖像類型。 SAM是一種通用的技術,能夠適用於各種用例,並可立即應用於新的影像領域,無需進行額外的訓練。
如下圖所示,SAM能很好的自動分割影像中的所有內容:
圖源:網路
未來,SAM可望接取AR/VR設備, 如用於透過AR眼鏡辨識日常物品,使用者僅需使用目光注視物體,SAM便能夠分割使用者看到的畫面;配合AR眼鏡應用,為使用者展示所注視物體的提醒和說明。
另一方面,大型語言模型的進展可以為語音互動和物件辨識的AR/VR設備提供更具沉浸性的互動體驗。大語言模型能夠理解更為複雜的自然語言,完成更複雜的自然語言處理任務,進而能夠聽懂使用者以語音形式給予的複雜指令並做出回應,增強AR/VR設備語音互動方式的體驗。隨著算力不斷強化,大型模型快速迭代,沉浸式AR/VR體驗的互動方式也有可能會更加豐富。
其次,生成式AI的發展,也會進一步降低AR/VR應用中3D創作的成本與門檻,解決AR/VR對3D素材的大量需求。關於生成式AI對3D創作的影響,陀螺君之前也寫過一篇短文分析,可點擊閱讀《 AI 3D創作來了? 「搶飯碗」成真 》。
圖源:網路
最後,「AI 」融合AR/VR的發展已是產業發展的很大趨勢,無論是從蘋果的產品來看,還是Meta最新公佈的佈局亦或是AI對設備更新的影響,都表明了充分結合AI技術是未來AR/VR產業發展重要的一環。
但值得一提的是,AI的發展到現在還未看到明確的規範性文件出來,如果無限制發展AI對產業帶來的負面影響也不可低估,如侵犯用戶隱私、詐騙、數據洩漏、認知偏見等等。
參考文章:
#1.https://arstechnica.com/gadgets/2020/08/apple-explains-how-it-uses-machine-learning-across-ios-and-soon-macos/
2.https://blog.roboflow.com/apple-vision-pro-visionos-computer-vision/
3.蘋果的人工智慧應用,跟 ChatGPT 不太一樣
4.蘋果Vision Pro竟暗藏「腦機介面」?
5.Apple Vision Pro「洩漏」了蘋果哪些AI能力?
合作請聯絡
遊戲陀螺的聯絡方式:
商務合作對接:
#西瓜:(微信1865903032)
文靜:(微信mutou_kiki)
以上是深剖Apple Vision Pro中暗藏的'AI”的詳細內容。更多資訊請關注PHP中文網其他相關文章!

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3 Linux新版
SublimeText3 Linux最新版

Atom編輯器mac版下載
最受歡迎的的開源編輯器

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器