ホームページ >テクノロジー周辺機器 >AI >Rokidアルゴリズム責任者のWang Wenbing氏:AR下での「サウンド」は「素晴らしい」状態にある
音は私たちの日常生活に遍在し、なくてはならないものですが、メタバースの世界でも同様です。メタバースの世界への没入感を最大限に高めるためには、さまざまな音響技術の継続的なアップグレードと開発が必要です。 51CTOが先日開催した「 AISummit Global Artificial Intelligence Technology Conference 」にて、Rokidアルゴリズム責任者のWang Wenbing氏が登壇基調講演「Sound in AR under "Wonderful" Land」では、Rokid が自社開発した 6DoF 空間音場の概念、主な技術モジュール、技術的困難さ、AR と組み合わせた開発動向と本来の意図が紹介されました。テクノロジーの開発、空間音場を説明する メタバース世界におけるテクノロジーの重要な表現。
スピーチの内容は次のように構成されています。
この問題について話すときは、まず技術的な制限を脇に置き、AR 上のサウンドがどのように表現されるべきかを想像してください。実際、現在私たちが使っているテレビや携帯電話のほとんどはステレオのような2チャンネルですし、ホームシアターではすでに多チャンネル化が進んでいますし、映画館などのプロの現場でも空間配置にスピーカーが設置されています。
AR ではどのように表示する必要がありますか?今流行のオンライン会議やオンライン教育などのシーンを想像してみると、メタバース世界で右側のデジタル人間がずっと話しているのに、声が左側から聞こえてきたら、違和感を感じませんか?この時?
さらに、AR ゲームを想像してみましょう。これまでの 2D ビジョンでは、サウンドはビジョンの焦点に合わせて動きますが、3D シーンの 360 度の範囲内で動きます。 , 人間の目は視覚的な焦点全体を把握することはできませんが、音には全体的な焦点があります。多くのゲームで、音に応じて視点が切り替わるのはこのためです。したがって、AR 上のサウンドに必要な特性のいくつかがわかります。それは、人々の音に対する高い感度、音の世界的な焦点、音のリアリズムの要件を満たす必要があるということです。
次に、3次元からの音の形の発展の軌跡を紹介します。
#まずは空間表現の次元。 サウンド全体の表現次元は、モノラル/ステレオから5.1/7.1/9.1/...の平面内のマルチチャンネル、5.1.x/7.1.xの空間内のマルチチャンネルなどまで多岐にわたります。スピーカーの数はますます増えており、その配置は平面から空間まで増加しています。
第 2 に、エンコード方法の次元です。 最初から、チャネルベース (つまり、チャネルベースのエンコーディング、各チャネルには通常の左右のチャネル表現などのさまざまなサウンドがあります) から、オブジェクトベース (これもコーディングすることです) までたとえば、砲弾が撃ち落とされると、その砲弾のオブジェクトが特別にコード化され、その移動軌跡がメタデータに記録され、再生は対応するスピーカーの位置に基づいて行われますが、私たちの最終的な目標は、砲弾だけでなく、HOA などのパノラマ サウンド手法と同様に、シーンに完全に基づいた効果を達成することです。秋、空間感があります。
#3 番目は、XR エクスペリエンスの次元です。 以前は、仮想サウンドは現実世界から切り離されていましたが、今の XR、特に AR では、仮想と現実の統合が行われています。
人間がこれほど細かく音を聞き分けられるのはバイノーラルモードによるもので、厳密に言えばITDとILD、つまり両者の時間差と音の強さの差です。耳。これら 2 つの違いは、オブジェクトの音の方向を素早く特定するのに役立ちます。
では、3D サウンドを普及させるにはどうすればよいでしょうか?会場の制限をどう打破するか?ユーザーの消費コストを削減するにはどうすればよいですか?どうすれば誰もがテクノロジーを楽しむことができるでしょうか? Rokid が独自に開発した 6dof 空間音場は、これらの問題の解決に役立ちます。
6dof 空間音場 はその名前から、6dof と空間音場という 2 つの部分に分けることができます。 6dofは主に6自由度を表現しており、ジャイロスコープはXYZの3方向の回転を、加速度センサーはXYZの3方向の加速度を与えます。
6dof 空間音場には、音の生成、伝達、レンダリング、エンコードとデコード、および仮想と現実の融合と相互作用が含まれます。プロセス全体を通して音が鳴ります。
6dof 空間音場の主要技術モジュール HRTF、サウンド フィールド レンダリング、サウンド エフェクト が含まれます。 HRTF は、自由音場から鼓膜までの音源の衝撃関数であり、模擬無響室環境において全方位の音を人間の耳に伝達するプロセスです。音場レンダリングにより、人は聞くことで音の位置を区別できるようになり、仮想と現実のオブジェクトをブレンドして、仮想音源に対する現実のオブジェクトの影響を完全に処理できます。音響効果としては、プライバシーに配慮したオープンスピーカーを採用することで音漏れを抑え、音量を確保することで音質を豊かにします。
アーキテクチャ図の上部にある SDK は、外部空間モジュール、つまり空間エンジンのエクスポートと音声エンジンを提供します。輸出。空間情報を取得してモデル化することができ、デジタル世界と物理世界の統合に役立ちます。
さらに、ルームエフェクトにもいくつかの変更を加えました。全体的なフレームワークは古典的なネットワーク構造と似ており、まずネットワークを構築し、理論的なロスレス ネットワークを生成し、この理論に基づいて、吸収、オクルージョン、反射、等実際、私たちはさまざまな効果音を作り出すことが目的ではなく、演劇や音楽など、製品の使用シーンに基づいて、ユーザーに優れた視聴覚体験を提供するための効果音を提供しているだけです。次世代ARメガネ「Rokid Max」について。
6dofの空間音場比較。左側はサードパーティ製SDKの効果で、0度から90度まで回転させた際、各周波数の変化が滑らかではなく、最初は急激に減少し、その後の変化は非常に小さいです。右の Rokid が作成した 6dof 空間音場では、位置の変化に応じてさまざまな周波数帯域で明らかな変化が見られます。この写真は、さまざまな角度、さまざまな周波数帯域、さまざまな振幅でのパフォーマンスを示しています。
時代とともに2020 年の到来と AR および VR テクノロジーの台頭により、空間音場の開発も新たな機会をもたらしました。
空間音場の開発トレンドは、主に 3 つの側面に反映されています。
第一に、没入感、人々は現実のものを追うことができます。仮想と現実の統合と相互作用を改善し、真に没入型のエクスペリエンスを実現するためのフィードバックを提供します。 仮想世界のすべての音は、現実世界のオブジェクトの影響から自由であってはなりません。これは、人々にそれがまだ分離しているように感じさせるためです。統合に加えて、インタラクションも必要です。たとえば、仮想世界では、音声やジェスチャーなどのさまざまな方法で AR 端末上の強化されたサウンドとインタラクションし、さまざまなウィンドウの一時停止、再生、切り替えを選択できます。レベルや視点、自分なりの感じ方など、興味の声など。
2 つ目は改良です。これには、HRTF、解像度、テスト方法、カスタマイズなどのさまざまな側面での洗練された探索と実践が含まれます。 洗練するのがより難しいのはヘッド パスです。ヘッド パス自体の生成方法はより時間と手間がかかるため、球状空間全体のさまざまな距離にあるすべてのポイントを再生し、その結果をサンプリングする必要があります。外耳道。現在、一部の学者は、より少ないサンプリングポイントで同じ程度のリファインメントを生成する方法、および補間またはその他の技術的手段によってより高い精度を達成する方法を研究していますが、同時に、長期的な観点から、リファインメントの 1 つの制限がカスタマイズされています。実装。
#3 つ目はプライバシーと音響効果で、さまざまな周波数帯域の音によってもたらされる聴覚の饗宴を体験します。 異なる倍音や異なる周波数帯域は、私たちに異なる感覚を与えます。例えば、残響が激しいと人間の聴覚に影響を与えますが、適切な残響は音質面で豊かなリスニング体験をもたらしますが、特に初期の残響は3K以下の音色の判断によく使われます。高周波成分はサラウンド感を実現するのに役立ちます。
なぜ Rokid は空間音場を作成するのでしょうか?主な理由は 3 つあります。
まず、没入型です。 私たちは、ゲームプレイ時の鮮やかさ、オンライン会議やオンライン教育のリアリティなど、デジタル世界とフィジカル世界の融合を追求してきました。
2 つ目は、仮想と現実のインタラクションです。 私たちは、この世界の未来は現実と現実の融合であると信じています。その融合に基づいて、空間認識のプロセスや主観的な行動の相互作用など、さまざまな相互作用が可能になります。空間認識とは、物体のサイズ、空間のサイズ、材質などの世界の側面を指します。この認識は、仮想音に影響を与えます。主観的な動作の相互作用は、人間の介入、選択、および音との相互作用です。デジタル世界、コミュニケーション。
#3、究極の品質。 AR Glass は、携帯電話、タブレット、テレビ、その他の製品とは異なります。携帯電話を使用する場合、ネットワークの切断や遅延は許容できますが、目に装着する AR グラスのリアルタイム要件は非常に高くなります。この高いリアルタイム要件をどのように達成できるでしょうか?これには、アルゴリズム、エンジニアリング、システム、ハードウェア、アプリケーションの全体的な最適化が含まれます。
これらは私たちが追求してきた使命であり、Rokid は AR Glass 製品を通じてこれらの機能を一般に直接宣伝し、普及させたいと考えていますが、同時にこれらのテクノロジーを活用したいとも考えています。 Yoda OS の一部として基本機能がリリースされ、それによって間接的にユーザーに利益がもたらされ、開発者の使用を通じてあらゆる分野に力が与えられます。
カンファレンスのスピーチ リプレイと PPT がオンラインになりました。公式 Web サイトにアクセスして、エキサイティングなコンテンツをご覧ください (https://www.php .cn/link/53253027fef2ab5162a602f2acfed431 )
以上がRokidアルゴリズム責任者のWang Wenbing氏:AR下での「サウンド」は「素晴らしい」状態にあるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。