文/VR陀螺 元橋
在今年蘋果開發者大會(WWDC 2023)上,庫克(Tim Cook)延續了賈伯斯「one more thing」的表達發布了新一代空間計算產品——Apple Vision Pro。
這是一個值得讓人紀念的歷史性時刻,看到了另一個“one more thing”時刻來臨,更重要的是人機界面技術在蘋果發布新品之後會將迎來全新的發展,人類在虛擬/擴增實境層面的腳步又前進了一步。
之所以說「又」是因為在蘋果未發布新品之前,OpenAI推出了ChatGPT以及GPT大模型,讓人類徹底感受到AI能力的不凡,相應地AI技術在AR/VR領域的應用也凸顯了出來,甚至帶來了新一輪產業格局的改變。
AI 便被視為虛擬/擴增實境產業發展的關鍵因素,更是推動產業走深的底層技術,而蘋果一直作為產業「遊戲規則的製定者」在AI層面的佈局亦甚為久遠。雖然在今年WWDC 2023大會上,蘋果隻字未提人工智慧,但從此次發表會上的產品以及新品Vision Pro中便能夠窺探出一二。
蘋果超十年的AI版面
6月2日,根據外媒馬克・古爾曼的推特表示蘋果正在招募人工智慧方面的人才,而據外媒消息顯示,自5月以來蘋果在招聘門戶網站上發布了至少88個與人工智慧相關的職位,涵蓋視覺生成建模、主動智慧和應用AI研究等領域。
圖:馬克・古爾曼推特
所招募的職位隸屬於一個團隊,該團隊將“塑造生成式人工智慧技術改變蘋果行動運算平台的方式”,進一步表明iPhone以及Vision Pro等產品中的AI應用將會進一步擴展。
但蘋果在人工智慧層面的佈局其實更早,2010年蘋果以2億美元的價格收購了Siri團隊,並於2011年,隨著iPhone 4s的發布,Siri以智慧語音助理的身份亮相市場,如今已擴展到Mac、iPad甚至新發布的產品Vision Pro中。
圖:Vision Pro中呼喚Siri(來源:網路)
圖表:蘋果收購一覽(VR陀螺整理)
這種簡單的操作相比如今會寫稿、會編程的ChatGPT很容易讓人忘記其實Siri也是人工智慧,只是它與ChatGPT的工作原理不同。 Siri的一大工作原理是當它接收到指令後,會優先傳送到蘋果的資料中心,資料中心會根據指令的內容進行分析,給出已知的答案;其次就是上傳到雲端,給出答案“我不太清楚,但我從網路上找到了這些資訊」等等。 ChatGPT沒有本地處理流程,它直接依賴龐大的計算和模型推理,無論是否理解指令的含義,都能給出答案。
圖源:網路
蘋果向來對AI的發展都處於謹慎的態度,更喜歡強調機器學習功能以及為用戶提供好處,正如此次WWDC 2023大會上,庫克在接受媒體採訪時所稱“我們確實將它(AI)整合到我們的產品中,但人們不一定將其視為人工智慧。」正因為如此,蘋果才會限制Siri無節制發展。
另一方面,蘋果的AI戰略更注重兩點:效能與安全。在性能層面,蘋果會將AI融入產品中,提高產品的使用效果;而安全則是隱私,隱私是蘋果歷來注重的一個點,如2015年蘋果收購Perceptio,這家公司主要從事人工智慧照片分類,但除了圖片自動分類外,Perceptio還可以保護隱私,無需將用戶資料儲存在雲端。
2020年,蘋果機器學習和人工智慧策略的高級副總裁John Giannandrea以及產品行銷副總裁Bob Borchers在一次訪談中便肯定了蘋果的AI戰略,並表示2018年蘋果就加快了這一進程,讓iPhone 中的ISP 與神經引擎緊密合作(中央處理器),只是蘋果不會向外說太多自己的AI能力,強調的則是Transformer 語言模型、機器學習等。
圖:John Giannandrea(資料來源:網路)
而Giannandrea和Borchers也清楚地表明:如今,機器學習在蘋果的產品功能中發揮了重要作用,機器學習在蘋果的應用還會繼續增強。
Apple Vision Pro中透露的AI能力
在生成式AI爆火的今年,許多業內人士都預測稱今年的WWDC 2023大會,蘋果可能也會會談及AI,但在近2小時的發布會上,AI一次都未被提及,只是在其產品中無所不在。陀螺君針對Vision Pro所展現的AI能力進行了梳理,不難看出AR/VR若想進一步發展,必然也離不開AI技術的支持。
1.AI數字分身
AI的存取讓數位人製作更加逼真,甚至在某些網站上,使用者也可以根據自己的需求創建符合自己需求的數位人,而3D虛擬數位人也是VR頭顯進一步發展避不開的一節。 Meta已經發布了Codec Avatar 2.0版本,該版本在數位人的逼真效果方面比1.0更加完善。
圖源:網路
Vision Pro則是透過前置鏡頭掃描人的臉部訊息,再基於機器學習技術,系統會使用先進的編碼神經網絡,為使用者產生一個「數位分身」。且當使用者正透過FaceTime通話時,數位分身可以動態模仿使用者的臉部和手部的動作,保留數位分身的體積感和深度。
圖源:網路
蘋果表示,他們的團隊正在積極優化該功能,並將在未來的visionOS更新中使數位人看起來更加真實。另一方面,從發布會上的使用效果來看,數位分身的構建確實已經很逼真了,而且操作上也更加簡單,僅需用設備掃一掃面部信息即可,可以說已經超越了目前市面上一些數位分身軟體。
2.AI情緒偵測
#蘋果在2016年就收購了一家AI情緒檢測的公司,而今年根據外媒消息顯示,蘋果正在研發一種名為Quartz的人工智慧健康指導服務與追蹤情緒的新技術。
在此次Vision Pro發布後,蘋果前研究員Sterling Crispin在推特中,透露了不少關於Vision Pro的黑科技。其中最令人驚嘆的便是Vision Pro可以透過使用者在沉浸式體驗中的身體和腦部數據,來偵測使用者的心理狀態。 “Brain-computer interface” or "mind reading" is how Sterling Crispin refers to it.。
圖:Sterling Crispin的推特資訊
而這項技術背後的主要原理則是,每個人在做每件事之前,瞳孔會做出反應,其中部分原因是你預計在你點擊之後會發生一些事情。因此,蘋果可以透過演算法來監視你的眼睛行為。重寫後的句子: 透過即時重新設計UI,以產生更多預期的瞳孔反應,從而創造個人大腦的生物回饋。
圖源:網路
3.更聰明的輸入方式
為了進一步滿足用戶對指引功能和空間內容的交互,Vision Pro引入了全新的輸入系統,即由眼睛、手勢和語音來進行交互,透過注視應用,「輕敲/輕拂」的手勢進行應用的選擇,或使用語音指令瀏覽應用。
圖源:網路
當眼睛注視到瀏覽器搜尋框時,搜尋框即進入聽寫輸入狀態,此時只需語音說出想要檢索的內容,即可自動鍵入文本,進而進行搜尋。使用 Siri 還能快速開啟和關閉 app,播放媒體檔案等。
圖源:網路
雖然蘋果並沒有在Vision Pro介紹中強調輸入法,但從iOS 17的介紹中可知,蘋果更新的更加智能的輸入法,不僅可以糾正拼寫錯誤,甚至還可以糾正用戶在輸入過程中的語法錯誤。更重要的是,基於裝置端的機器學習,輸入法還會根據使用者每一次的鍵入自動改進模型,將輸入法的自動修正功能達到了前所未有的準確度。
圖源:網路
4.新的作業系統「visionOS」
根據蘋果表示,建立在macOS、iOS和iPadOS的研發基礎上,他們從零開始為Vision Pro設計了新的作業系統VisionOS,以實現對低延遲要求非常高的空間運算能力;分別內嵌了iOS框架、空間運算框架、空間音訊引擎、3D空間引擎、注視點渲染引擎、即時驅動的子系統等。
圖源:網路
根據蘋果透露, visionOS將會有全新的 AppStore,未來會有更多專門針對 Vision Pro 開發的應用,例如 3D 解剖圖等。
從以上可以看出Vision Pro的創新離不開AI的發展,在Vision Pro的空間音頻計算、眼球動作以及手部行為的捕捉,這些都是人工智能技術所發力的領域,蘋果憑藉著M2和R1兩顆晶片提供的算力支撐,順利實現了人工智慧的在地化部署。
圖源:網路
而除了在Vision Pro隱藏了無處不在的AI能力外,蘋果的所有產品幾乎都能看到AI的技術,AI幾乎已經滲透到了其產品的各個細節中,進一步表明了“AI ”在AR/VR層面發展的重要性。
雖然蘋果隻字未提AI,但庫克在一次訪談中表示「他個人正在使用ChatGPT 並對這個獨特應用程式感到興奮,並表示蘋果目前正密切關注該工具。」庫克還補充說,「大型語言模型顯示出巨大的希望,但也有可能出現諸如偏見、錯誤訊息之類的事情,而且在某些情況下可能更糟。」
在筆者看來,AI作為一項技術本就該用於提升產品的性能,更好地為人類服務,過多的炒作或宣傳反而失去了這項技術本該有的樣子。同時,人工智慧或機器學習在未來會變得更加普遍,對於生成式AI,蘋果或許並沒有以大眾希望的樣子而展開,但相信蘋果默默將其融於產品後一定可以提升用戶的體驗,讓人眼前一亮。
“AI ”,AR/VR發展關鍵的一環
之前陀螺君曾在一篇文章中分析過「AI 」對產業競爭格局的影響,可點擊閱讀《 攪局者GPT-4已來,AR產業競爭格局邁入新維度》,但拋開產業競爭格局來看,「AI 」也會為AR/VR設備的效能帶來更大的提升。
今年,Meta發布了用於圖像分割的新模型Segment Anything Model (SAM),根據Meta博客表示,SAM已經學會了關於物體的一般概念,並且它可以為任何圖像或視頻中的任何物體生成mask,甚至包括在訓練過程中沒有遇到的物體和圖像類型。 SAM是一種通用的技術,能夠適用於各種用例,並可立即應用於新的影像領域,無需進行額外的訓練。
如下圖所示,SAM能很好的自動分割影像中的所有內容:
圖源:網路
未來,SAM可望接取AR/VR設備, 如用於透過AR眼鏡辨識日常物品,使用者僅需使用目光注視物體,SAM便能夠分割使用者看到的畫面;配合AR眼鏡應用,為使用者展示所注視物體的提醒和說明。
另一方面,大型語言模型的進展可以為語音互動和物件辨識的AR/VR設備提供更具沉浸性的互動體驗。大語言模型能夠理解更為複雜的自然語言,完成更複雜的自然語言處理任務,進而能夠聽懂使用者以語音形式給予的複雜指令並做出回應,增強AR/VR設備語音互動方式的體驗。隨著算力不斷強化,大型模型快速迭代,沉浸式AR/VR體驗的互動方式也有可能會更加豐富。
其次,生成式AI的發展,也會進一步降低AR/VR應用中3D創作的成本與門檻,解決AR/VR對3D素材的大量需求。關於生成式AI對3D創作的影響,陀螺君之前也寫過一篇短文分析,可點擊閱讀《 AI 3D創作來了? 「搶飯碗」成真 》。
圖源:網路
最後,「AI 」融合AR/VR的發展已是產業發展的很大趨勢,無論是從蘋果的產品來看,還是Meta最新公佈的佈局亦或是AI對設備更新的影響,都表明了充分結合AI技術是未來AR/VR產業發展重要的一環。
但值得一提的是,AI的發展到現在還未看到明確的規範性文件出來,如果無限制發展AI對產業帶來的負面影響也不可低估,如侵犯用戶隱私、詐騙、數據洩漏、認知偏見等等。
參考文章:
#1.https://arstechnica.com/gadgets/2020/08/apple-explains-how-it-uses-machine-learning-across-ios-and-soon-macos/
2.https://blog.roboflow.com/apple-vision-pro-visionos-computer-vision/
3.蘋果的人工智慧應用,跟 ChatGPT 不太一樣
4.蘋果Vision Pro竟暗藏「腦機介面」?
5.Apple Vision Pro「洩漏」了蘋果哪些AI能力?
合作請聯絡
遊戲陀螺的聯絡方式:
商務合作對接:
#西瓜:(微信1865903032)
文靜:(微信mutou_kiki)
以上是深剖Apple Vision Pro中暗藏的“AI”的詳細內容。更多資訊請關注PHP中文網其他相關文章!