ホームページ > 記事 > テクノロジー周辺機器 > 音響分野の機械学習研究はマルチモーダルなメタバースを解き放つ可能性がある
MIT と IBM Watson AI Lab の研究者は、3D 空間内のさまざまな場所でリスナーが何を聞くかを予測する機械学習モデルを作成しました。
研究者らは最初にこの機械学習モデルを使用して、部屋内の音が空間をどのように伝わるかを理解し、人々が音を通じて環境を理解するのと同じ方法で部屋の 3D 画像を構築しました。
MIT 電気工学およびコンピュータ サイエンス学科 (EECS) の大学院生である Yilun Du 氏が共著した論文では、研究者らはビジュアル 3D モデリングと同様の技術を音響にどのように適用できるかを示しています。
しかし、彼らは音と光の伝播の違いに直面しなければなりません。たとえば、障害物、部屋の形状、音の特性により、部屋の異なる場所にいるリスナーは音に対して非常に異なる印象を持つ可能性があり、その結果が予測不可能になります。
この問題を解決するために、研究者たちはモデルに音響特徴を組み込みました。まず、他の条件がすべて同じであれば、音源とリスナーの位置を入れ替えても、リスナーが聞く内容は変わりません。音は、リスナーと音源との間にある障害物など、局所的な状況にも特に影響を受けます。
Du 氏は次のように述べています。「これまで、ほとんどの研究者は視覚モデリングにのみ焦点を当ててきました。しかし、人間として、私たちは複数の知覚モードを持っています。視覚だけが重要ではなく、音も重要です。私はこれがこの研究だと思います」世界をシミュレートするために音をより効果的に使用するという刺激的な研究の方向性が開かれます。」
この方法を使用すると、生成された神経音響場 (NAF) モデルでグリッド上の点をランダム化できます。サンプリングにより、音の特性を理解できます。特定の場所。たとえば、ドアの近くにいると、リスナーが部屋の反対側から聞こえる内容に大きな影響を与える可能性があります。
このモデルは、室内でのリスナーの相対位置に基づいて、特定の音響刺激からリスナーが何を聞く可能性があるかを予測できます。
論文では次のように述べられています。「シーン内の音響伝播を線形時不変システムとしてモデル化することで、NAF はエミッターとリスナーの位置を神経インパルス応答関数に継続的にマッピングすることを学習します。これはあらゆる用途に適用できます。 「私たちは、NAF の連続性により、あらゆる場所のリスナーに空間サウンドをレンダリングし、新しい場所での音の伝播を予測できることを実証しました。」
MIT IBM Watson AI Lab 所長 研究員 Chuang Ganこのプロジェクトにも携わった 氏は、「この新しいテクノロジーは、メタバース アプリケーションでマルチモーダルな没入型エクスペリエンスを作成する新たな機会をもたらす可能性があります。」と述べています。 。
以上が音響分野の機械学習研究はマルチモーダルなメタバースを解き放つ可能性があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。