音は私たちの日常生活に遍在し、なくてはならないものですが、メタバースの世界でも同様です。メタバースの世界への没入感を最大限に高めるためには、さまざまな音響技術の継続的なアップグレードと開発が必要です。 51CTOが先日開催した「 AISummit Global Artificial Intelligence Technology Conference 」にて、Rokidアルゴリズム責任者のWang Wenbing氏が登壇基調講演「Sound in AR under "Wonderful" Land」では、Rokid が自社開発した 6DoF 空間音場の概念、主な技術モジュール、技術的困難さ、AR と組み合わせた開発動向と本来の意図が紹介されました。テクノロジーの開発、空間音場を説明する メタバース世界におけるテクノロジーの重要な表現。
スピーチの内容は次のように構成されています。
6dof 空間音場とは何ですか?
この問題について話すときは、まず技術的な制限を脇に置き、AR 上のサウンドがどのように表現されるべきかを想像してください。実際、現在私たちが使っているテレビや携帯電話のほとんどはステレオのような2チャンネルですし、ホームシアターではすでに多チャンネル化が進んでいますし、映画館などのプロの現場でも空間配置にスピーカーが設置されています。
AR ではどのように表示する必要がありますか?今流行のオンライン会議やオンライン教育などのシーンを想像してみると、メタバース世界で右側のデジタル人間がずっと話しているのに、声が左側から聞こえてきたら、違和感を感じませんか?この時?
さらに、AR ゲームを想像してみましょう。これまでの 2D ビジョンでは、サウンドはビジョンの焦点に合わせて動きますが、3D シーンの 360 度の範囲内で動きます。 , 人間の目は視覚的な焦点全体を把握することはできませんが、音には全体的な焦点があります。多くのゲームで、音に応じて視点が切り替わるのはこのためです。したがって、AR 上のサウンドに必要な特性のいくつかがわかります。それは、人々の音に対する高い感度、音の世界的な焦点、音のリアリズムの要件を満たす必要があるということです。
次に、3次元からの音の形の発展の軌跡を紹介します。
#まずは空間表現の次元。 サウンド全体の表現次元は、モノラル/ステレオから5.1/7.1/9.1/...の平面内のマルチチャンネル、5.1.x/7.1.xの空間内のマルチチャンネルなどまで多岐にわたります。スピーカーの数はますます増えており、その配置は平面から空間まで増加しています。
第 2 に、エンコード方法の次元です。 最初から、チャネルベース (つまり、チャネルベースのエンコーディング、各チャネルには通常の左右のチャネル表現などのさまざまなサウンドがあります) から、オブジェクトベース (これもコーディングすることです) までたとえば、砲弾が撃ち落とされると、その砲弾のオブジェクトが特別にコード化され、その移動軌跡がメタデータに記録され、再生は対応するスピーカーの位置に基づいて行われますが、私たちの最終的な目標は、砲弾だけでなく、HOA などのパノラマ サウンド手法と同様に、シーンに完全に基づいた効果を達成することです。秋、空間感があります。
#3 番目は、XR エクスペリエンスの次元です。 以前は、仮想サウンドは現実世界から切り離されていましたが、今の XR、特に AR では、仮想と現実の統合が行われています。
人間がこれほど細かく音を聞き分けられるのはバイノーラルモードによるもので、厳密に言えばITDとILD、つまり両者の時間差と音の強さの差です。耳。これら 2 つの違いは、オブジェクトの音の方向を素早く特定するのに役立ちます。
では、3D サウンドを普及させるにはどうすればよいでしょうか?会場の制限をどう打破するか?ユーザーの消費コストを削減するにはどうすればよいですか?どうすれば誰もがテクノロジーを楽しむことができるでしょうか? Rokid が独自に開発した 6dof 空間音場は、これらの問題の解決に役立ちます。
6dof 空間音場 はその名前から、6dof と空間音場という 2 つの部分に分けることができます。 6dofは主に6自由度を表現しており、ジャイロスコープはXYZの3方向の回転を、加速度センサーはXYZの3方向の加速度を与えます。
6dof 空間音場には、音の生成、伝達、レンダリング、エンコードとデコード、および仮想と現実の融合と相互作用が含まれます。プロセス全体を通して音が鳴ります。
6dof 空間音場の主要技術
6dof 空間音場の主要技術モジュール HRTF、サウンド フィールド レンダリング、サウンド エフェクト が含まれます。 HRTF は、自由音場から鼓膜までの音源の衝撃関数であり、模擬無響室環境において全方位の音を人間の耳に伝達するプロセスです。音場レンダリングにより、人は聞くことで音の位置を区別できるようになり、仮想と現実のオブジェクトをブレンドして、仮想音源に対する現実のオブジェクトの影響を完全に処理できます。音響効果としては、プライバシーに配慮したオープンスピーカーを採用することで音漏れを抑え、音量を確保することで音質を豊かにします。
アーキテクチャ図の上部にある SDK は、外部空間モジュール、つまり空間エンジンのエクスポートと音声エンジンを提供します。輸出。空間情報を取得してモデル化することができ、デジタル世界と物理世界の統合に役立ちます。
さらに、ルームエフェクトにもいくつかの変更を加えました。全体的なフレームワークは古典的なネットワーク構造と似ており、まずネットワークを構築し、理論的なロスレス ネットワークを生成し、この理論に基づいて、吸収、オクルージョン、反射、等実際、私たちはさまざまな効果音を作り出すことが目的ではなく、演劇や音楽など、製品の使用シーンに基づいて、ユーザーに優れた視聴覚体験を提供するための効果音を提供しているだけです。次世代ARメガネ「Rokid Max」について。
6dofの空間音場比較。左側はサードパーティ製SDKの効果で、0度から90度まで回転させた際、各周波数の変化が滑らかではなく、最初は急激に減少し、その後の変化は非常に小さいです。右の Rokid が作成した 6dof 空間音場では、位置の変化に応じてさまざまな周波数帯域で明らかな変化が見られます。この写真は、さまざまな角度、さまざまな周波数帯域、さまざまな振幅でのパフォーマンスを示しています。
6dof空間音場の開発動向
時代とともに2020 年の到来と AR および VR テクノロジーの台頭により、空間音場の開発も新たな機会をもたらしました。
空間音場の開発トレンドは、主に 3 つの側面に反映されています。
第一に、没入感、人々は現実のものを追うことができます。仮想と現実の統合と相互作用を改善し、真に没入型のエクスペリエンスを実現するためのフィードバックを提供します。 仮想世界のすべての音は、現実世界のオブジェクトの影響から自由であってはなりません。これは、人々にそれがまだ分離しているように感じさせるためです。統合に加えて、インタラクションも必要です。たとえば、仮想世界では、音声やジェスチャーなどのさまざまな方法で AR 端末上の強化されたサウンドとインタラクションし、さまざまなウィンドウの一時停止、再生、切り替えを選択できます。レベルや視点、自分なりの感じ方など、興味の声など。
2 つ目は改良です。これには、HRTF、解像度、テスト方法、カスタマイズなどのさまざまな側面での洗練された探索と実践が含まれます。 洗練するのがより難しいのはヘッド パスです。ヘッド パス自体の生成方法はより時間と手間がかかるため、球状空間全体のさまざまな距離にあるすべてのポイントを再生し、その結果をサンプリングする必要があります。外耳道。現在、一部の学者は、より少ないサンプリングポイントで同じ程度のリファインメントを生成する方法、および補間またはその他の技術的手段によってより高い精度を達成する方法を研究していますが、同時に、長期的な観点から、リファインメントの 1 つの制限がカスタマイズされています。実装。
#3 つ目はプライバシーと音響効果で、さまざまな周波数帯域の音によってもたらされる聴覚の饗宴を体験します。 異なる倍音や異なる周波数帯域は、私たちに異なる感覚を与えます。例えば、残響が激しいと人間の聴覚に影響を与えますが、適切な残響は音質面で豊かなリスニング体験をもたらしますが、特に初期の残響は3K以下の音色の判断によく使われます。高周波成分はサラウンド感を実現するのに役立ちます。
空間音場探求の本来の目的
なぜ Rokid は空間音場を作成するのでしょうか?主な理由は 3 つあります。
まず、没入型です。 私たちは、ゲームプレイ時の鮮やかさ、オンライン会議やオンライン教育のリアリティなど、デジタル世界とフィジカル世界の融合を追求してきました。
2 つ目は、仮想と現実のインタラクションです。 私たちは、この世界の未来は現実と現実の融合であると信じています。その融合に基づいて、空間認識のプロセスや主観的な行動の相互作用など、さまざまな相互作用が可能になります。空間認識とは、物体のサイズ、空間のサイズ、材質などの世界の側面を指します。この認識は、仮想音に影響を与えます。主観的な動作の相互作用は、人間の介入、選択、および音との相互作用です。デジタル世界、コミュニケーション。
#3、究極の品質。 AR Glass は、携帯電話、タブレット、テレビ、その他の製品とは異なります。携帯電話を使用する場合、ネットワークの切断や遅延は許容できますが、目に装着する AR グラスのリアルタイム要件は非常に高くなります。この高いリアルタイム要件をどのように達成できるでしょうか?これには、アルゴリズム、エンジニアリング、システム、ハードウェア、アプリケーションの全体的な最適化が含まれます。
これらは私たちが追求してきた使命であり、Rokid は AR Glass 製品を通じてこれらの機能を一般に直接宣伝し、普及させたいと考えていますが、同時にこれらのテクノロジーを活用したいとも考えています。 Yoda OS の一部として基本機能がリリースされ、それによって間接的にユーザーに利益がもたらされ、開発者の使用を通じてあらゆる分野に力が与えられます。
カンファレンスのスピーチ リプレイと PPT がオンラインになりました。公式 Web サイトにアクセスして、エキサイティングなコンテンツをご覧ください (https://www.php .cn/link/53253027fef2ab5162a602f2acfed431 )
以上がRokidアルゴリズム責任者のWang Wenbing氏:AR下での「サウンド」は「素晴らしい」状態にあるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

導入 シナリオを想像してみてください。チームは、多様なソースからの大規模なデータセットに圧倒されます。 意味のあるプレゼンテーションのためにこの情報を統合、並べ替え、分析することは課題です。これは、パワーバイセマンティックモデル(PBISM)Ex

AIエージェント:LlamaindexとMonsterapiを搭載したAIの未来 AIエージェントは、テクノロジーとの対話方法に革命をもたらす態勢を整えています。 これらの自律システムは、人間の行動を模倣し、推論、意思決定、およびREAを必要とするタスクを実行します

自律AIのロック解除:自己トレーニングLLMの7つの方法 子どもたちが複雑な概念を独立して習得するように、AIシステムが人間の介入なしに学び、進化する未来を想像してください。これはサイエンスフィクションではありません。それは自己の約束です

AI搭載の財務報告:自然言語生成による洞察の革命 今日のダイナミックなビジネス環境では、戦略的意思決定には正確でタイムリーな財務分析が最重要です。 従来の財務報告

Google Deepmind's Table Tennis Robot:スポーツとロボット工学の新しい時代 パリ2024年のオリンピックは終わったかもしれませんが、Google Deepmindのおかげで、スポーツとロボット工学の新しい時代が夜明けです。 彼らの画期的な研究(「「人間レベルの競争を達成する」

Gemini Flash 1.5による効率とスケーラビリティのロック解除:Flask Food Vision WebApp 急速に進化するAIの状況では、効率とスケーラビリティが最重要です。 開発者は、コストとレイテンシを最小限に抑える高性能モデルをますます求めています

llamaindexを使用してAIエージェントのパワーを活用:ステップバイステップガイド 迅速な計算であろうと最新の市場ニュースを取得するかどうかにかかわらず、リクエストを理解し、完璧に実行するパーソナルアシスタントを想像してください。この記事で探求します

Jupyter Notebook(.ipynb)ファイルは、データ分析、科学的コンピューティング、およびインタラクティブエンコーディングで広く使用されています。これらのノートブックは、他のデータサイエンティストとコードを開発および共有するのに最適ですが、PDFなどのより一般的に読みやすい形式に変換する必要がある場合があります。このガイドでは、.ipynbファイルをPDFに変換するさまざまな方法、およびヒント、ベストプラクティス、およびトラブルシューティングの提案をご覧ください。 目次 .ipynbをPDFに変換する理由 .ipynbファイルをPDFに変換する方法 JupyterノートブックUIを使用します nbconveを使用します


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ドリームウィーバー CS6
ビジュアル Web 開発ツール

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、
