搜索
首页科技周边人工智能Rokid算法负责人王文兵:AR下的“声”临“奇”境

声音在我们的日常生活中无处不在,是不可或缺的一部分,在元宇宙世界中亦如此。元宇宙的场景要想实现全方位的沉浸感,需要各种声音技术的不断升级和发展。在51CTO近日举办的“AISummit 全球人工智能技术大会”上,Rokid算法负责人王文兵发表了《AR下的“声”临“奇”境》主题演讲,介绍了Rokid自研6DoF空间声场的概念、主要技术模块、技术难点、与AR结合的发展趋势以及开发技术的初衷,诠释了空间声场技术在元宇宙世界中的重要体现。

现将演讲内容整理如下: 

什么是6dof空间声场?

谈及这个问题时,可以先抛开技术的限制,想象一下AR上的声音应该以何种形态去呈现。其实我们现在用的TV、手机等大部分都是像stereo这种的双声道,家庭影院已经用上了multi-channel,电影院等专业场景还有空间布局上的喇叭。 

在AR上它究竟应该如何去呈现呢?我们可以试想一个画面,比如现在很流行的在线会议或在线教育,如果在元宇宙世界里看到右边的数字人一直在说话,但这个声音从你的左边出来,这个时候是不是感觉很奇怪? 

另外我们可以想象一下AR游戏,在以前这种2D的视觉里,声音跟着视觉的焦点去移动就可以,但是在3D场景的360度的范围下,人的双眼是无法抓住整个视觉焦点的,而声音是具备全局焦点的。这也是为什么在很多游戏里,人会跟着声音去切换视角。因此可以看到AR上声音所需具备的一些特性:需要满足人对声音的高灵敏度感觉、声音的全局性焦点作用、以及声音的真实感要求等。 

接下来从三个维度介绍一下声音形态的发展之路。 

Rokid算法负责人王文兵:AR下的“声”临“奇”境

第一,空间表达维度。整个声音的表达维度从mono/stereo到5.1/7.1/9.1/...这种平面下的多声道、再到5.1.x/7.1.x这种空间下的多声道等,喇叭越来越多,摆放位置也从平面上升到空间了;

第二,编码方式维度。从最开始的channel-based(也就是基于通道的编码,每个通道上会有各种各样的声音,比如我们平时常见的左右声道的表达方式),到object-based(也就是针对发生的对象进行编码),包括大家在电影院观看到的Dolby Atmos片源,比如当某个炮弹打下来的时候,那个炮弹的对象是专门编码的,metadata中记录了其运动的轨迹,然后根据对应的喇叭位置进行播放的;但我们最终的目标还是希望达到完全基于场景下的效果,类似于HOA这样的全景声方式,不只是炮弹,一花一草一树叶的掉落我们都希望它是具备空间感。  

第三,XR体验维度。以前虚拟的声音和真实世界是割裂的,如今在XR里,尤其是AR方面,我们一直在做的事就是虚拟与现实的融合。

人之所以能够对声音有如此细力度的区分,是因为双耳模式,专业上来说是ITD和ILD,也就是双耳的时间差和音强差。这两种差别会帮助我们快速定位物体发声的方位。 

那么如何让3D声音普及?如何突破场地局限性?如何降低用户消费成本?如何能够让每个人都享受科技?Rokid 自研的6dof空间声场将助力解决这些难题。 

6dof空间声场从名字上可以分为两部分:6dof和空间声场。6dof主要表达六自由度,由陀螺仪提供绕XYZ三个方向的旋转,由加速度计提供XYZ三个方向的加速度。

6dof空间声场涉及声音的产生、传播、渲染、编解码以及整个过程中虚实声音融合和交互的过程。

Rokid算法负责人王文兵:AR下的“声”临“奇”境 

6dof空间声场的主要技术 

6dof空间声场的主要技术模块包含HRTFs、声场渲染以及音效。HRTFs是声源从自由场到耳膜的冲击函数,其是在模拟一个消音室的环境下,全方位的声音传到人耳的过程。声场渲染可以给予人听声辨位的能力,可以虚实融合,完美处理真实物体对虚拟声源的影响。音效是在私密性设计的开放式喇叭以减弱声音泄露、保障音量的同时,进行声音品质的丰富。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

架构图最上面的SDK,对外提供了空间模块,即空间引擎出口以及语音引擎出口。可以对空间信息进行获取和建模,有助于数字世界和物理世界的融合。

此外,我们在Room Effect上也做了一些修改。其整体框架与经典的网络结构大同小异,首先是构建网络,然后生成理论下的无损的网络,之后在这个理论的基础上做各种衰减、损耗的相关设置,包括吸收、遮挡、反射等。其实我们本身的目的不是为了做各种音效,我们只是结合着产品的使用场景,比如影院或者音乐,提供音效以让用户达到良好的视听体验,这些都可以在下一代AR眼镜Rokid Max上体验到。

6dof空间声场对比。左边是一个第三方SDK的效果,当从0度到90度旋转时,每个频率的变化是不平滑的,而且最开始下降的很厉害,后面的变化非常小。右边的Rokid所做的6dof空间声场,不同的频率段跟着你的方位变换的时候有明显的变化,图中为不同角度、不同频率段、不同幅值的表现。

  Rokid算法负责人王文兵:AR下的“声”临“奇”境   

6dof空间声场的发展趋势   

随着元宇宙时代的来临,AR、VR技术的兴起,空间声场的发展也迎来了新的机遇。

空间声场的发展趋势主要体现在三个方面: 

一是沉浸感,人们可以根据真实的世界进行反馈,更好地进行虚实融合与交互,真正实现沉浸式体验。所有虚拟世界中的声音不应该放飞自我,不受真实世界中任何物体的影响,因为这样会让人觉得它本身还是割裂的。除了融合还要进行交互,比如在虚拟世界中可以通过语音、手势等不同方式去和AR终端上增强的声音进行交互,去选择暂停、播放、或切换不同层次、不同视角的窗口、或自己感兴趣的声音等等。 

二是精细化,在HRTF、分辨率、测试方法、定制化等不同方面进行精细化的探索与实践。精细化比较难的是头传,因为头传本身的生成手段就比较费时费力,需要对整个球面空间上不同距离下的每个点进行播放,然后再耳道进行采样。当前也有些学者在研究如何用更少的采样点生成这种相同的精细化程度,以及如何通过插值或其他技术手段实现更高的精确度;同时,从更长远的角度来看,精细化的一个极限是私定制的实现。 

三是私密性与音效,体验不同频段的声音带来的听觉盛宴。不同谐波或不同频段给我们带来的感觉是不一样的。比如,严重的混响是会影响人类的听感,而适宜的混响是会带来音质上的丰富听感;尤其是早期的混响,很多时候会被用于音色的判断,低于3K的混响和横向反射会有助于形成更好的空间感和深度感,而高频的分量会帮助我们实现环绕感。

Rokid算法负责人王文兵:AR下的“声”临“奇”境  

探索空间声场的初衷

Rokid为何会做空间声场?主要有三个方面的原因:

一,沉浸感。我们一直在追求数字世界与物理世界的融合,比如玩游戏时的那种生动、在线会议或在线教育时的那种真实。 

二,虚实交互。我们认为未来在这世界会是一种虚实的融合,在融合的基础上可以去做很多交互,包括空间感知的过程、主观行为的交互等。空间感知是指对于世界中比如物体的大小、空间的大小、材质等方面,这种感知之后则形成对虚拟声音的影响;主观行为的交互是人为地干预、选择、与数字世界中的声音做沟通。

三,极致品质。AR Glass与手机、平板、TV等产品是有所区别的。当你用手机时出现断网或者卡顿的情况是能够忍受的,但是对戴在眼睛上的AR Glass的实时性的要求却是非常高的。如何才能做到这种实时性的高要求?这涉及到算法、工程、系统、硬件以及应用等整体的优化。 

这些是我们一直所追求的使命,Rokid希望通过AR Glass产品将这些能力直接推广并普及到大众;与此同时也希望将这些技术作为我们Yoda OS里的基本能力释放,从而通过广大开发者们的使用,间接的惠及到用户,赋能到各行各业。

现大会演讲回放及PPT已上线,进入官网查看精彩内容(https://www.php.cn/link/53253027fef2ab5162a602f2acfed431

以上是Rokid算法负责人王文兵:AR下的“声”临“奇”境的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介绍 假设有一个农民每天在几周内观察农作物的进展。他研究了增长率,并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI(被定义为AI系统,旨在使用近似推理,模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。 但是这对业务意味着什么

为AI前沿的不断发展的安全框架为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变,AI需要专门为AI独特需求而设计的新型安全解决方案。 云计算和安全课程的兴起 在

生成AI的3种方法放大了企业家:当心平均值!生成AI的3种方法放大了企业家:当心平均值!Apr 15, 2025 am 11:33 AM

企业家,并使用AI和Generative AI来改善其业务。同时,重要的是要记住生成的AI,就像所有技术一样,都是一个放大器 - 使得伟大和平庸,更糟。严格的2024研究O

Andrew Ng的新简短课程Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量:深入研究安德鲁·NG的新课程 想象一个未来,机器可以完全准确地理解和回答您的问题。 这不是科幻小说;多亏了AI的进步,它已成为R

大语言模型(LLM)中的幻觉是不可避免的吗?大语言模型(LLM)中的幻觉是不可避免的吗?Apr 15, 2025 am 11:31 AM

大型语言模型(LLM)和不可避免的幻觉问题 您可能使用了诸如Chatgpt,Claude和Gemini之类的AI模型。 这些都是大型语言模型(LLM)的示例,在大规模文本数据集上训练的功能强大的AI系统

60%的问题 -  AI搜索如何消耗您的流量60%的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根据行业和搜索类型,AI概述可能导致有机交通下降15-64%。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。 新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心麻省理工学院媒体实验室将人类蓬勃发展成为AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大学(Elon University)想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”,得出的结论是,大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

安全考试浏览器

安全考试浏览器

Safe Exam Browser是一个安全的浏览器环境,用于安全地进行在线考试。该软件将任何计算机变成一个安全的工作站。它控制对任何实用工具的访问,并防止学生使用未经授权的资源。

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。