音響分野の機械学習研究はマルチモーダルなメタバースを解き放つ可能性がある-AI-php.cn

ホームページ

テクノロジー周辺機器

音響分野の機械学習研究はマルチモーダルなメタバースを解き放つ可能性がある

王林

Apr 16, 2023 pm 06:34 PM

機械学習元宇宙

音響分野の機械学習研究はマルチモーダルなメタバースを解き放つ可能性がある

MIT と IBM Watson AI Lab の研究者は、3D 空間内のさまざまな場所でリスナーが何を聞くかを予測する機械学習モデルを作成しました。

研究者らは最初にこの機械学習モデルを使用して、部屋内の音が空間をどのように伝わるかを理解し、人々が音を通じて環境を理解するのと同じ方法で部屋の 3D 画像を構築しました。

MIT 電気工学およびコンピュータサイエンス学科 (EECS) の大学院生である Yilun Du 氏が共著した論文では、研究者らはビジュアル 3D モデリングと同様の技術を音響にどのように適用できるかを示しています。

しかし、彼らは音と光の伝播の違いに直面しなければなりません。たとえば、障害物、部屋の形状、音の特性により、部屋の異なる場所にいるリスナーは音に対して非常に異なる印象を持つ可能性があり、その結果が予測不可能になります。

この問題を解決するために、研究者たちはモデルに音響特徴を組み込みました。まず、他の条件がすべて同じであれば、音源とリスナーの位置を入れ替えても、リスナーが聞く内容は変わりません。音は、リスナーと音源との間にある障害物など、局所的な状況にも特に影響を受けます。

Du 氏は次のように述べています。「これまで、ほとんどの研究者は視覚モデリングにのみ焦点を当ててきました。しかし、人間として、私たちは複数の知覚モードを持っています。視覚だけが重要ではなく、音も重要です。私はこれがこの研究だと思います」世界をシミュレートするために音をより効果的に使用するという刺激的な研究の方向性が開かれます。」

この方法を使用すると、生成された神経音響場 (NAF) モデルでグリッド上の点をランダム化できます。サンプリングにより、音の特性を理解できます。特定の場所。たとえば、ドアの近くにいると、リスナーが部屋の反対側から聞こえる内容に大きな影響を与える可能性があります。

このモデルは、室内でのリスナーの相対位置に基づいて、特定の音響刺激からリスナーが何を聞く可能性があるかを予測できます。

論文では次のように述べられています。「シーン内の音響伝播を線形時不変システムとしてモデル化することで、NAF はエミッターとリスナーの位置を神経インパルス応答関数に継続的にマッピングすることを学習します。これはあらゆる用途に適用できます。「私たちは、NAF の連続性により、あらゆる場所のリスナーに空間サウンドをレンダリングし、新しい場所での音の伝播を予測できることを実証しました。」

MIT IBM Watson AI Lab 所長研究員 Chuang Ganこのプロジェクトにも携わった氏は、「この新しいテクノロジーは、メタバースアプリケーションでマルチモーダルな没入型エクスペリエンスを作成する新たな機会をもたらす可能性があります。」と述べています。。

以上が音響分野の機械学習研究はマルチモーダルなメタバースを解き放つ可能性があるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

ホットツール

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。