Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある-AI-php.cn

ホームページ

テクノロジー周辺機器

Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある

PHPz

Apr 12, 2023 pm 07:46 PM

AIar

音は私たちの日常生活に遍在し、なくてはならないものですが、メタバースの世界でも同様です。メタバースの世界への没入感を最大限に高めるためには、さまざまな音響技術の継続的なアップグレードと開発が必要です。 51CTOが先日開催した「 AISummit Global Artificial Intelligence Technology Conference 」にて、Rokidアルゴリズム責任者のWang Wenbing氏が登壇基調講演「Sound in AR under "Wonderful" Land」では、Rokid が自社開発した 6DoF 空間音場の概念、主な技術モジュール、技術的困難さ、AR と組み合わせた開発動向と本来の意図が紹介されました。テクノロジーの開発、空間音場を説明するメタバース世界におけるテクノロジーの重要な表現。

スピーチの内容は次のように構成されています。

6dof 空間音場とは何ですか?

この問題について話すときは、まず技術的な制限を脇に置き、AR 上のサウンドがどのように表現されるべきかを想像してください。実際、現在私たちが使っているテレビや携帯電話のほとんどはステレオのような2チャンネルですし、ホームシアターではすでに多チャンネル化が進んでいますし、映画館などのプロの現場でも空間配置にスピーカーが設置されています。

AR ではどのように表示する必要がありますか?今流行のオンライン会議やオンライン教育などのシーンを想像してみると、メタバース世界で右側のデジタル人間がずっと話しているのに、声が左側から聞こえてきたら、違和感を感じませんか？この時？

さらに、AR ゲームを想像してみましょう。これまでの 2D ビジョンでは、サウンドはビジョンの焦点に合わせて動きますが、3D シーンの 360 度の範囲内で動きます。 , 人間の目は視覚的な焦点全体を把握することはできませんが、音には全体的な焦点があります。多くのゲームで、音に応じて視点が切り替わるのはこのためです。したがって、AR 上のサウンドに必要な特性のいくつかがわかります。それは、人々の音に対する高い感度、音の世界的な焦点、音のリアリズムの要件を満たす必要があるということです。

次に、3次元からの音の形の発展の軌跡を紹介します。

Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある

#まずは空間表現の次元。サウンド全体の表現次元は、モノラル/ステレオから5.1/7.1/9.1/...の平面内のマルチチャンネル、5.1.x/7.1.xの空間内のマルチチャンネルなどまで多岐にわたります。スピーカーの数はますます増えており、その配置は平面から空間まで増加しています。

第 2 に、エンコード方法の次元です。最初から、チャネルベース (つまり、チャネルベースのエンコーディング、各チャネルには通常の左右のチャネル表現などのさまざまなサウンドがあります) から、オブジェクトベース (これもコーディングすることです) までたとえば、砲弾が撃ち落とされると、その砲弾のオブジェクトが特別にコード化され、その移動軌跡がメタデータに記録され、再生は対応するスピーカーの位置に基づいて行われますが、私たちの最終的な目標は、砲弾だけでなく、HOA などのパノラマサウンド手法と同様に、シーンに完全に基づいた効果を達成することです。秋、空間感があります。

#3 番目は、XR エクスペリエンスの次元です。 以前は、仮想サウンドは現実世界から切り離されていましたが、今の XR、特に AR では、仮想と現実の統合が行われています。

人間がこれほど細かく音を聞き分けられるのはバイノーラルモードによるもので、厳密に言えばITDとILD、つまり両者の時間差と音の強さの差です。耳。これら 2 つの違いは、オブジェクトの音の方向を素早く特定するのに役立ちます。

では、3D サウンドを普及させるにはどうすればよいでしょうか?会場の制限をどう打破するか？ユーザーの消費コストを削減するにはどうすればよいですか?どうすれば誰もがテクノロジーを楽しむことができるでしょうか？ Rokid が独自に開発した 6dof 空間音場は、これらの問題の解決に役立ちます。

6dof 空間音場はその名前から、6dof と空間音場という 2 つの部分に分けることができます。 6dofは主に6自由度を表現しており、ジャイロスコープはXYZの3方向の回転を、加速度センサーはXYZの3方向の加速度を与えます。

6dof 空間音場には、音の生成、伝達、レンダリング、エンコードとデコード、および仮想と現実の融合と相互作用が含まれます。プロセス全体を通して音が鳴ります。

Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある

6dof 空間音場の主要技術

6dof 空間音場の主要技術モジュール HRTF、サウンドフィールドレンダリング、サウンドエフェクト が含まれます。 HRTF は、自由音場から鼓膜までの音源の衝撃関数であり、模擬無響室環境において全方位の音を人間の耳に伝達するプロセスです。音場レンダリングにより、人は聞くことで音の位置を区別できるようになり、仮想と現実のオブジェクトをブレンドして、仮想音源に対する現実のオブジェクトの影響を完全に処理できます。音響効果としては、プライバシーに配慮したオープンスピーカーを採用することで音漏れを抑え、音量を確保することで音質を豊かにします。

Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある

アーキテクチャ図の上部にある SDK は、外部空間モジュール、つまり空間エンジンのエクスポートと音声エンジンを提供します。輸出。空間情報を取得してモデル化することができ、デジタル世界と物理世界の統合に役立ちます。

さらに、ルームエフェクトにもいくつかの変更を加えました。全体的なフレームワークは古典的なネットワーク構造と似ており、まずネットワークを構築し、理論的なロスレスネットワークを生成し、この理論に基づいて、吸収、オクルージョン、反射、等実際、私たちはさまざまな効果音を作り出すことが目的ではなく、演劇や音楽など、製品の使用シーンに基づいて、ユーザーに優れた視聴覚体験を提供するための効果音を提供しているだけです。次世代ARメガネ「Rokid Max」について。

6dofの空間音場比較。左側はサードパーティ製SDKの効果で、0度から90度まで回転させた際、各周波数の変化が滑らかではなく、最初は急激に減少し、その後の変化は非常に小さいです。右の Rokid が作成した 6dof 空間音場では、位置の変化に応じてさまざまな周波数帯域で明らかな変化が見られます。この写真は、さまざまな角度、さまざまな周波数帯域、さまざまな振幅でのパフォーマンスを示しています。

Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある

6dof空間音場の開発動向

時代とともに2020 年の到来と AR および VR テクノロジーの台頭により、空間音場の開発も新たな機会をもたらしました。

空間音場の開発トレンドは、主に 3 つの側面に反映されています。

第一に、没入感、人々は現実のものを追うことができます。仮想と現実の統合と相互作用を改善し、真に没入型のエクスペリエンスを実現するためのフィードバックを提供します。仮想世界のすべての音は、現実世界のオブジェクトの影響から自由であってはなりません。これは、人々にそれがまだ分離しているように感じさせるためです。統合に加えて、インタラクションも必要です。たとえば、仮想世界では、音声やジェスチャーなどのさまざまな方法で AR 端末上の強化されたサウンドとインタラクションし、さまざまなウィンドウの一時停止、再生、切り替えを選択できます。レベルや視点、自分なりの感じ方など、興味の声など。

2 つ目は改良です。これには、HRTF、解像度、テスト方法、カスタマイズなどのさまざまな側面での洗練された探索と実践が含まれます。 洗練するのがより難しいのはヘッドパスです。ヘッドパス自体の生成方法はより時間と手間がかかるため、球状空間全体のさまざまな距離にあるすべてのポイントを再生し、その結果をサンプリングする必要があります。外耳道。現在、一部の学者は、より少ないサンプリングポイントで同じ程度のリファインメントを生成する方法、および補間またはその他の技術的手段によってより高い精度を達成する方法を研究していますが、同時に、長期的な観点から、リファインメントの 1 つの制限がカスタマイズされています。実装。

#3 つ目はプライバシーと音響効果で、さまざまな周波数帯域の音によってもたらされる聴覚の饗宴を体験します。 異なる倍音や異なる周波数帯域は、私たちに異なる感覚を与えます。例えば、残響が激しいと人間の聴覚に影響を与えますが、適切な残響は音質面で豊かなリスニング体験をもたらしますが、特に初期の残響は3K以下の音色の判断によく使われます。高周波成分はサラウンド感を実現するのに役立ちます。

Rokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にある

空間音場探求の本来の目的

なぜ Rokid は空間音場を作成するのでしょうか?主な理由は 3 つあります。

まず、没入型です。 私たちは、ゲームプレイ時の鮮やかさ、オンライン会議やオンライン教育のリアリティなど、デジタル世界とフィジカル世界の融合を追求してきました。

2 つ目は、仮想と現実のインタラクションです。 私たちは、この世界の未来は現実と現実の融合であると信じています。その融合に基づいて、空間認識のプロセスや主観的な行動の相互作用など、さまざまな相互作用が可能になります。空間認識とは、物体のサイズ、空間のサイズ、材質などの世界の側面を指します。この認識は、仮想音に影響を与えます。主観的な動作の相互作用は、人間の介入、選択、および音との相互作用です。デジタル世界、コミュニケーション。

#3、究極の品質。 AR Glass は、携帯電話、タブレット、テレビ、その他の製品とは異なります。携帯電話を使用する場合、ネットワークの切断や遅延は許容できますが、目に装着する AR グラスのリアルタイム要件は非常に高くなります。この高いリアルタイム要件をどのように達成できるでしょうか?これには、アルゴリズム、エンジニアリング、システム、ハードウェア、アプリケーションの全体的な最適化が含まれます。

これらは私たちが追求してきた使命であり、Rokid は AR Glass 製品を通じてこれらの機能を一般に直接宣伝し、普及させたいと考えていますが、同時にこれらのテクノロジーを活用したいとも考えています。 Yoda OS の一部として基本機能がリリースされ、それによって間接的にユーザーに利益がもたらされ、開発者の使用を通じてあらゆる分野に力が与えられます。

カンファレンスのスピーチリプレイと PPT がオンラインになりました。公式 Web サイトにアクセスして、エキサイティングなコンテンツをご覧ください (https://www.php .cn/link/53253027fef2ab5162a602f2acfed431 ）

以上がRokidアルゴリズム責任者のWang Wenbing氏：AR下での「サウンド」は「素晴らしい」状態にあるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

あなたは無知のベールの後ろに職場AIを構築する必要がありますApr 29, 2025 am 11:15 AM

ジョン・ロールズの独創的な1971年の著書「正義の理論」で、彼は私たちが今日のAIデザインの核となり、意思決定を使用するべきであるという思考実験を提案しました：無知のベール。この哲学は、公平性を理解するための簡単なツールを提供し、リーダーがこの理解を使用してAIを公平に設計および実装するための青写真を提供します。あなたが新しい社会のルールを作っていると想像してください。しかし、前提があります。この社会でどのような役割を果たすかは事前にわかりません。過半数または限界少数派に属している、金持ちまたは貧弱、健康、または障害者になることがあります。この「無知のベール」の下で活動することで、ルールメーカーが自分自身に利益をもたらす決定を下すことができません。それどころか、人々はより公衆を策定する意欲があります

決定、決定…実用的な応用AIの次のステップApr 29, 2025 am 11:14 AM

ロボットプロセスオートメーション（RPA）を専門とする多くの企業は、繰り返しタスクを自動化するためのボットを提供しています。一方、プロセスマイニング、オーケストレーション、インテリジェントドキュメント処理スペシャル

エージェントが来ています - 私たちがAIパートナーの隣ですることについてもっとApr 29, 2025 am 11:13 AM

AIの未来は、単純な単語の予測と会話シミュレーションを超えて動いています。 AIエージェントは出現しており、独立したアクションとタスクの完了が可能です。このシフトは、AnthropicのClaudeのようなツールですでに明らかです。 AIエージェント：研究a

共感がAI主導の未来におけるリーダーのコントロールよりも重要である理由Apr 29, 2025 am 11:12 AM

急速な技術の進歩は、仕事の未来に関する将来の見通しの視点を必要とします。 AIが単なる生産性向上を超えて、私たちの社会構造の形成を開始するとどうなりますか？ Topher McDougalの今後の本、Gaia Wakes：

製品分類のためのAI：マシンは税法を習得できますか？Apr 29, 2025 am 11:11 AM

多くの場合、Harmonized System（HS）などのシステムからの「HS 8471.30」などの複雑なコードを含む製品分類は、国際貿易と国内販売に不可欠です。これらのコードは、すべてのINVに影響を与える正しい税申請を保証します

データセンターの要求は、気候技術のリバウンドを引き起こす可能性がありますか？Apr 29, 2025 am 11:10 AM

データセンターと気候技術投資におけるエネルギー消費の将来この記事では、AIが推進するデータセンターのエネルギー消費の急増と気候変動への影響を調査し、この課題に対処するための革新的なソリューションと政策の推奨事項を分析します。エネルギー需要の課題：大規模で超大規模なデータセンターは、数十万の普通の北米の家族の合計に匹敵する巨大な力を消費し、新たなAIの超大規模なセンターは、これよりも数十倍の力を消費します。 2024年の最初の8か月で、Microsoft、Meta、Google、Amazonは、AIデータセンターの建設と運用に約1,250億米ドルを投資しました（JP Morgan、2024）（表1）。エネルギー需要の成長は、挑戦と機会の両方です。カナリアメディアによると、迫り来る電気

AIとハリウッドの次の黄金時代Apr 29, 2025 am 11:09 AM

生成AIは、映画とテレビの制作に革命をもたらしています。 LumaのRay 2モデル、滑走路のGen-4、OpenaiのSora、GoogleのVEO、その他の新しいモデルは、前例のない速度で生成されたビデオの品質を向上させています。これらのモデルは、複雑な特殊効果と現実的なシーンを簡単に作成できます。短いビデオクリップやカメラ認知モーション効果も達成されています。これらのツールの操作と一貫性を改善する必要がありますが、進歩の速度は驚くべきものです。生成ビデオは独立した媒体になりつつあります。アニメーション制作が得意なモデルもあれば、実写画像が得意なモデルもあります。 AdobeのFireflyとMoonvalleyのMAであることは注目に値します

ChatGptはゆっくりとAIの最大のYES-MANになりますか？Apr 29, 2025 am 11:08 AM

ChatGptユーザーエクスペリエンスは低下します：それはモデルの劣化ですか、それともユーザーの期待ですか？最近、多数のCHATGPT有料ユーザーがパフォーマンスの劣化について不満を述べています。ユーザーは、モデルへの応答が遅く、答えが短い、助けの欠如、さらに多くの幻覚を報告しました。一部のユーザーは、ソーシャルメディアに不満を表明し、ChatGptは「お世辞になりすぎて」、重要なフィードバックを提供するのではなく、ユーザービューを検証する傾向があることを指摘しています。これは、ユーザーエクスペリエンスに影響を与えるだけでなく、生産性の低下やコンピューティングリソースの無駄など、企業の顧客に実際の損失をもたらします。パフォーマンスの劣化の証拠多くのユーザーは、特にGPT-4などの古いモデル（今月末にサービスから廃止される）で、ChatGPTパフォーマンスの大幅な分解を報告しています。これ

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。