搜尋
首頁科技週邊人工智慧Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境

聲音在我們的日常生活中無所不在,是不可或缺的一部分,在元宇宙世界中也是如此。元宇宙的場景要實現全方位的沉浸感,需要各種聲音技術的不斷升級與發展。在51CTO近日舉辦的「AISummit 全球人工智慧技術大會」上,Rokid演算法負責人王文兵發表了《AR下的「聲」臨「奇」境》主題演講,介紹了Rokid自研6DoF空間聲場的概念、主要技術模組、技術難點、與AR結合的發展趨勢以及開發技術的初衷,詮釋了空間聲場科技在元宇宙世界中的重要體現。

現在將演講內容整理如下: 

#什麼是6dof空間聲場?

談到這個問題時,可以先拋開技術的限制,想像AR上的聲音應該以何種形態去呈現。其實我們現在用的TV、手機等大部分都是像stereo這樣的雙聲道,家庭劇院已經用上了multi-channel,電影院等專業場景還有空間佈置上的喇叭。 

在AR上它究竟該如何去呈現呢?我們可以試想一個畫面,例如現在很流行的線上會議或線上教育,如果在元宇宙世界裡看到右邊的數字人一直在說話,但這個聲音從你的左邊出來,這個時候是不是感覺很奇怪?

另外我們可以想像AR遊戲,在以前這種2D的視覺裡,聲音跟著視覺的焦點去移動就可以,但是在3D場景的360度的範圍下,人的雙眼是無法抓住整個視覺焦點的,而聲音是具備全局焦點的。這也是為什麼在很多遊戲裡,人會跟著聲音切換視角。因此可以看到AR上聲音所需具備的一些特性:需要滿足人對聲音的高靈敏度感覺、聲音的全局焦點作用、以及聲音的真實感要求等。 

接下來從三個維度介紹聲音型態的發展之路。 

Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境

第一,空間表達維度。 整個聲音的表達維度從mono/stereo到5.1/7.1/9.1/...這種平面下的多聲道、再到5.1.x/7.1.x這種空間下的多聲道等,喇叭越來越多,擺放位置也從平面上升到空間了;

第二,編碼方式維度。 從最開始的channel-based(也就是基於通道的編碼,每個通道上會有各種各樣的聲音,例如我們平時常見的左右聲道的表達方式),到object-based(也就是針對發生的對象進行編碼),包括大家在電影院觀看到的Dolby Atmos片源,比如當某個砲彈打下來的時候,那個砲彈的對像是專門編碼的,metadata中記錄了其運動的軌跡,然後根據對應的喇叭位置進行播放的;但我們最終的目標還是希望達到完全基於場景下的效果,類似於HOA這樣的全景聲方式,不只是砲彈,一花一草一樹葉的掉落我們都希望它是具備空間感。  

第三,XR體驗維度。 以前虛擬的聲音和真實世界是割裂的,如今在XR裡,尤其是AR方面,我們一直在做的事就是虛擬與現實的融合。

人之所以能夠對聲音有如此細力度的區分,是因為雙耳模式,專業上來說是ITD和ILD,也就是雙耳的時間差和音強差。這兩種差異會幫助我們快速定位物體發聲的方位。 

那麼如何讓3D聲音普及?如何突破場地限制?如何降低用戶消費成本?如何能讓每個人都享受科技? Rokid 自研的6dof空間音場將協助解決這些難題。 

6dof空間聲場從名字上可以分成兩個部分:6dof和空間聲場。 6dof主要表達六自由度,陀螺儀提供繞XYZ三個方向的旋轉,由加速度計提供XYZ三個方向的加速度。

6dof空間聲場涉及聲音的產生、傳播、渲染、編解碼以及整個過程中虛實聲音融合和互動的過程。

#

Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境 

6dof空間聲場的主要技術 

6dof空間聲場的主要技術模組包含 HRTFs、聲場渲染以及音效。 HRTFs是聲源從自由場到耳膜的衝擊函數,其是在模擬一個消音室的環境下,全方位的聲音傳到人耳的過程。聲場渲染可以給予人聽聲辨別的能力,可以虛實融合,完美處理真實物體對虛擬聲源的影響。音效是在私密性設計的開放式喇叭以減弱聲音洩漏、保障音量的同時,進行聲音品質的豐富。

Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境  

#架構圖最上方的SDK,外部提供了空間模組,即空間引擎出口以及語音引擎出口。可以對空間資訊進行獲取和建模,有助於數位世界和物理世界的融合。

此外,在Room Effect上也做了一些修改。其整體框架與經典的網絡結構大同小異,首先是構建網絡,然後生成理論上的無損的網絡,之後在這個理論的基礎上做各種衰減、損耗的相關設置,包括吸收、遮擋、反射等。其實我們本身的目的不是為了做各種音效,我們只是結合著產品的使用場景,比如影院或者音樂,提供音效以讓用戶達到良好的視聽體驗,這些都可以在下一代AR眼鏡Rokid Max上體驗到。

6dof空間聲場對比。左邊是一個第三方SDK的效果,當從0度到90度旋轉時,每個頻率的變化是不平滑的,而且最開始下降的很厲害,後面的變化非常小。右邊的Rokid所做的6dof空間音場,不同的頻率段跟著你的方位變換的時候有明顯的變化,圖中為不同角度、不同頻率段、不同幅值的表現。

  Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境   

6dof空間聲場的發展趨勢   

#隨著元宇宙時代的來臨,AR、VR技術的興起,空間聲場的發展也迎來了新的機會。

空間音場的發展趨勢主要體現在三個面向: 

一是沉浸感,人們可以根據真實的世界進行回饋,更好地進行虛實融合與交互,真正實現沉浸式體驗。 所有虛擬世界中的聲音不應該放飛自我,不受真實世界中任何物體的影響,因為這樣會讓人覺得它本身還是割裂的。除了融合還要進行交互,例如在虛擬世界中可以透過語音、手勢等不同方式去和AR終端上增強的聲音進行交互,去選擇暫停、播放、或切換不同層次、不同視角的窗口、或自己感興趣的聲音等等。 

二是精細化,在HRTF、解析度、測試方法、客製化等不同面向進行精細化的探索與實務。 精細化比較難的是頭傳,因為頭傳本身的生成手段就比較費時費力,需要對整個球面空間上不同距離下的每個點進行播放,然後再耳道進行採樣。目前也有些學者在研究如何用更少的採樣點生成這種相同的精細化程度,以及如何透過插值或其他技術手段實現更高的精確度;同時,從更長遠的角度來看,精細化的一個極限是私人定制的實現。 

三是私密與音效,體驗不同頻段的聲音所帶來的聽覺盛宴。 不同諧波或不同頻段帶給我們的感覺是不一樣的。例如,嚴重的殘響是會影響人類的聽感,而適宜的混響是會帶來音質上的豐富聽感;尤其是早期的混響,很多時候會被用於音色的判斷,低於3K的殘響和橫向反射有助於形成更好的空間感和深度感,而高頻的分量會幫助我們實現環繞感。

Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境  

探索空間聲場的初衷

Rokid為何要做空間音場?主要有三個面向的原因:

一,沉浸感。 我們一直在追求數位世界與物理世界的融合,例如玩遊戲時的那種生動、線上會議或線上教育時的那種真實。 

二,虛實互動。 我們認為未來在這個世界會是一種虛實的融合,在融合的基礎上可以去做很多交互,包括空間感知的過程、主觀行為的交互等。空間感知是指對於世界中例如物體的大小、空間的大小、材質等方面,這種感知之後則形成對虛擬聲音的影響;主觀行為的交互是人為地干預、選擇、與數位世界中的聲音做溝通。

三,極致特質。 AR Glass與手機、平板、TV等產品是區別的。當你用手機時出現斷網或卡頓的情況是能夠忍受的,但是對戴在眼睛上的AR Glass的實時性的要求卻是非常高的。如何才能做到這種即時性的高要求?這涉及到演算法、工程、系統、硬體以及應用等整體的最佳化。

這些都是我們一直在追求的使命,Rokid希望透過AR Glass產品將這些能力直接推廣並普及到大眾;同時也希望將這些技術作為我們Yoda OS裡的基本能力釋放,從而透過廣大開發者們的使用,間接的惠及到用戶,賦能到各行各業。

現會演講重播及PPT已上線,進入官網查看精彩內容(https://www.php.cn/link/53253027fef2ab5162a602f2acfed431

#

以上是Rokid演算法負責人王文兵:AR下的「聲」臨「奇」境的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
如何使用LM Studio在本地運行LLM? - 分析Vidhya如何使用LM Studio在本地運行LLM? - 分析VidhyaApr 19, 2025 am 11:38 AM

輕鬆在家運行大型語言模型:LM Studio 使用指南 近年來,軟件和硬件的進步使得在個人電腦上運行大型語言模型 (LLM) 成為可能。 LM Studio 就是一個讓這一過程變得輕鬆便捷的優秀工具。本文將深入探討如何使用 LM Studio 在本地運行 LLM,涵蓋關鍵步驟、潛在挑戰以及在本地擁有 LLM 的優勢。無論您是技術愛好者還是對最新 AI 技術感到好奇,本指南都將提供寶貴的見解和實用技巧。讓我們開始吧! 概述 了解在本地運行 LLM 的基本要求。 在您的電腦上設置 LM Studi

蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來蓋伊·佩里(Guy Peri)通過數據轉換幫助麥考密克的未來Apr 19, 2025 am 11:35 AM

蓋伊·佩里(Guy Peri)是麥考密克(McCormick)的首席信息和數字官。儘管他的角色僅七個月,但Peri正在迅速促進公司數字能力的全面轉變。他的職業生涯專注於數據和分析信息

迅速工程中的情感鍊是什麼? - 分析Vidhya迅速工程中的情感鍊是什麼? - 分析VidhyaApr 19, 2025 am 11:33 AM

介紹 人工智能(AI)不僅要理解單詞,而且要理解情感,從而以人的觸感做出反應。 這種複雜的互動對於AI和自然語言處理的快速前進的領域至關重要。 Th

12個最佳數據科學工作流程的AI工具-Analytics Vidhya12個最佳數據科學工作流程的AI工具-Analytics VidhyaApr 19, 2025 am 11:31 AM

介紹 在當今以數據為中心的世界中,利用先進的AI技術對於尋求競爭優勢和提高效率的企業至關重要。 一系列強大的工具使數據科學家,分析師和開發人員都能構建,Depl

AV字節:OpenAI的GPT-4O Mini和其他AI創新AV字節:OpenAI的GPT-4O Mini和其他AI創新Apr 19, 2025 am 11:30 AM

本週的AI景觀爆炸了,來自Openai,Mistral AI,Nvidia,Deepseek和Hugging Face等行業巨頭的開創性發行。 這些新型號有望提高功率,負擔能力和可訪問性,這在TR的進步中推動了

報告發現,困惑的Android應用程序有安全缺陷。報告發現,困惑的Android應用程序有安全缺陷。Apr 19, 2025 am 11:24 AM

但是,該公司的Android應用不僅提供搜索功能,而且還充當AI助手,並充滿了許多安全問題,可以將其用戶暴露於數據盜用,帳戶收購和惡意攻擊中

每個人都擅長使用AI:關於氛圍編碼的想法每個人都擅長使用AI:關於氛圍編碼的想法Apr 19, 2025 am 11:17 AM

您可以查看會議和貿易展覽中正在發生的事情。您可以詢問工程師在做什麼,或諮詢首席執行官。 您看的任何地方,事情都以驚人的速度發生變化。 工程師和非工程師 有什麼區別

火箭發射模擬和分析使用Rocketpy -Analytics Vidhya火箭發射模擬和分析使用Rocketpy -Analytics VidhyaApr 19, 2025 am 11:12 AM

模擬火箭發射的火箭發射:綜合指南 本文指導您使用強大的Python庫Rocketpy模擬高功率火箭發射。 我們將介紹從定義火箭組件到分析模擬的所有內容

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱工具

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境