Rumah  >  Artikel  >  Peranti teknologi  >  Wang Wenbing, ketua algoritma Rokid: "Bunyi" di bawah AR berada dalam keadaan "indah".

Wang Wenbing, ketua algoritma Rokid: "Bunyi" di bawah AR berada dalam keadaan "indah".

PHPz
PHPzke hadapan
2023-04-12 19:46:081567semak imbas

Bunyi ada di mana-mana dalam kehidupan seharian kita dan merupakan bahagian yang sangat diperlukan, dan perkara yang sama berlaku di dunia metaverse. Untuk mencapai rangkaian penuh rendaman dalam adegan Metaverse, peningkatan berterusan dan pembangunan pelbagai teknologi bunyi diperlukan. Pada "AISummit Global Artificial Intelligence Technology Conference " yang diadakan baru-baru ini oleh 51CTO, Wang Wenbing, ketua algoritma Rokid , membuat ucapan Ucaptama "Bunyi dalam AR di bawah Tanah "Hebat" memperkenalkan konsep medan bunyi spatial 6DoF yang dibangunkan sendiri oleh Rokid, modul teknikal utama, kesukaran teknikal, trend pembangunan menggabungkan dengan AR dan niat asal untuk membangunkan teknologi, menerangkan bidang bunyi spatial Satu manifestasi penting teknologi dalam dunia metaverse.

Kandungan kuliah kini disusun seperti berikut:

Apakah medan bunyi spatial 6dof?

Apabila bercakap tentang isu ini, anda boleh mengetepikan pengehadan teknikal dahulu dan bayangkan bagaimana bunyi pada AR harus dipersembahkan. Malah, kebanyakan TV dan telefon mudah alih yang kami gunakan sekarang adalah dua saluran seperti stereo Teater rumah telah pun menggunakan berbilang saluran, dan adegan profesional seperti panggung wayang juga mempunyai pembesar suara susun atur ruang.

Bagaimanakah ia harus dipersembahkan pada AR? Kita boleh bayangkan adegan, seperti mesyuarat dalam talian atau pendidikan dalam talian yang sangat popular sekarang Jika anda melihat orang digital di sebelah kanan dalam dunia metaverse bercakap sepanjang masa, tetapi suara itu datang dari kiri anda, adakah ia berasa pelik. kali ini?

Di samping itu, kita boleh membayangkan permainan AR Dalam penglihatan 2D sebelumnya, bunyi hanya bergerak dengan fokus penglihatan, tetapi dalam julat 360 darjah adegan 3D. , Mata manusia tidak dapat menangkap keseluruhan fokus visual, tetapi bunyi mempunyai fokus global. Inilah sebabnya mengapa dalam banyak permainan, orang akan menukar perspektif mengikut bunyi. Oleh itu, kita dapat melihat beberapa ciri yang perlu ada pada AR: ia perlu memenuhi sensitiviti tinggi orang terhadap bunyi, fokus global bunyi dan keperluan realisme bunyi.

Seterusnya, mari kita perkenalkan perkembangan bentuk bunyi daripada tiga dimensi.

Wang Wenbing, ketua algoritma Rokid:

Pertama, dimensi ungkapan spatial. Keseluruhan dimensi ekspresi bunyi berjulat daripada mono/stereo kepada berbilang saluran dalam satah 5.1/7.1/9.1/..., kepada berbilang saluran dalam ruang 5.1.x/7.1.x, dsb. semakin banyak pembesar suara, dan penempatan mereka juga telah meningkat dari satah ke angkasa lepas; Dari awal lagi, berasaskan saluran (iaitu, pengekodan berasaskan saluran, setiap saluran akan mempunyai pelbagai bunyi, seperti ungkapan saluran kiri dan kanan biasa kami), kepada berasaskan objek (juga untuk mengekod objek yang berlaku), termasuk sumber filem Dolby Atmos yang semua orang tonton di pawagam Contohnya, apabila bola meriam ditembak jatuh, objek bola meriam itu dikodkan secara khas, dan trajektori pergerakannya direkodkan dalam metadata, dan kemudian. Ia dimainkan mengikut kedudukan pembesar suara yang sepadan; tetapi matlamat utama kami adalah untuk mencapai kesan sepenuhnya berdasarkan tempat kejadian, sama dengan kaedah bunyi panorama seperti HOA Kami berharap ia bukan hanya bola meriam, tetapi juga kejatuhan bunga , rumput dan daun Ia mempunyai rasa ruang.

Ketiga, dimensi pengalaman XR. Pada masa lalu, bunyi maya telah dipisahkan daripada dunia nyata Kini dalam XR, terutamanya dalam AR, apa yang kami lakukan ialah penyepaduan maya dan realiti.

Sebab orang boleh membezakan bunyi dengan terperinci yang begitu halus adalah kerana mod binaural, secara teknikalnya ialah ITD dan ILD, iaitu perbezaan masa dan perbezaan intensiti bunyi antara kedua-duanya. telinga. Kedua-dua perbezaan ini akan membantu kita mencari arah bunyi objek dengan cepat.

Jadi bagaimana untuk menjadikan bunyi 3D popular? Bagaimana untuk menembusi had tempat? Bagaimana untuk mengurangkan kos penggunaan pengguna? Bagaimanakah semua orang boleh menikmati teknologi? Medan bunyi spatial 6dof yang dibangunkan sendiri oleh Rokid akan membantu menyelesaikan masalah ini.

6dof medan bunyi spatial boleh dibahagikan kepada dua bahagian daripada nama: 6dof dan medan bunyi spatial. 6dof terutamanya menyatakan enam darjah kebebasan Giroskop menyediakan putaran di sekitar tiga arah XYZ, dan pecutan memberikan pecutan dalam tiga arah XYZ.

Medan bunyi spatial 6dof melibatkan penjanaan, penyebaran, rendering, pengekodan dan penyahkodan bunyi, serta gabungan dan interaksi maya dan bunyi sebenar sepanjang proses.

Wang Wenbing, ketua algoritma Rokid:

Teknologi utama medan bunyi spatial 6dof

Modul teknologi utama medan bunyi spatial 6dof termasuk HRTF, pemaparan medan bunyi dan kesan bunyi. HRTF ialah fungsi impak sumber bunyi dari medan bebas ke gegendang telinga Ia adalah proses penghantaran bunyi bulat ke telinga manusia dalam persekitaran ruang anechoic yang disimulasikan. Penyampaian medan bunyi boleh memberi orang keupayaan untuk membezakan kedudukan bunyi dengan mendengar, dan boleh menggabungkan objek maya dan sebenar untuk mengendalikan dengan sempurna kesan objek sebenar pada sumber bunyi maya. Kesan bunyi adalah untuk memperkayakan kualiti bunyi dengan menggunakan pembesar suara terbuka yang direka untuk privasi bagi mengurangkan kebocoran bunyi dan memastikan kelantangan.

Wang Wenbing, ketua algoritma Rokid:

SDK di bahagian atas rajah seni bina menyediakan modul spatial luaran, iaitu eksport enjin ruang dan eksport enjin pertuturan. Maklumat spatial boleh diperoleh dan dimodelkan, membantu menyepadukan dunia digital dan fizikal.

Selain itu, kami juga telah membuat beberapa pengubahsuaian pada Kesan Bilik. Rangka kerja keseluruhannya adalah serupa dengan struktur rangkaian klasik Pertama, rangkaian dibina, dan kemudian rangkaian tanpa kerugian teori dijana Kemudian, berdasarkan teori ini, pelbagai tetapan berkaitan pengecilan dan kehilangan dibuat, termasuk penyerapan, oklusi, refleksi. dll. Sebenarnya, tujuan kami sendiri bukanlah untuk menghasilkan pelbagai kesan bunyi Kami hanya menyediakan kesan bunyi berdasarkan senario penggunaan produk, seperti teater atau muzik, supaya pengguna boleh mencapai pengalaman audio-visual yang baik pada cermin mata AR generasi akan datang Rokid Max.

6dof perbandingan medan bunyi angkasa. Bahagian kiri ialah kesan SDK pihak ketiga Apabila berputar dari 0 darjah kepada 90 darjah, perubahan setiap frekuensi tidak lancar, dan penurunannya tajam pada mulanya, dan perubahan seterusnya adalah sangat kecil. Medan bunyi spatial 6dof yang dibuat oleh Rokid di sebelah kanan mempunyai perubahan yang jelas dalam jalur frekuensi yang berbeza apabila kedudukan anda berubah Gambar menunjukkan prestasi sudut yang berbeza, jalur frekuensi yang berbeza dan amplitud yang berbeza.

Wang Wenbing, ketua algoritma Rokid: Dengan kemunculan tahun 2020 dan peningkatan teknologi AR dan VR, pembangunan medan bunyi spatial juga telah membawa peluang baharu.

Trend pembangunan medan bunyi spatial terutamanya dicerminkan dalam tiga aspek:

Pertama, rendaman, orang ramai boleh mengikuti yang sebenar dunia Menyediakan maklum balas untuk menyepadukan dan berinteraksi dengan lebih baik secara maya dan nyata, dan benar-benar mencapai pengalaman yang mengasyikkan. Semua bunyi di alam maya tidak seharusnya bebas daripada pengaruh mana-mana objek di dunia nyata, kerana ini akan membuatkan orang ramai merasakan ia masih terpisah. Selain penyepaduan, interaksi juga diperlukan Contohnya, dalam dunia maya, anda boleh berinteraksi dengan bunyi yang dipertingkatkan pada terminal AR melalui kaedah yang berbeza seperti suara dan gerak isyarat, untuk memilih untuk menjeda, memainkan atau menukar tetingkap yang berbeza. tahap dan perspektif, atau merasai suara minat anda sendiri dan banyak lagi.

Yang kedua ialah penghalusan, yang melibatkan penerokaan dan amalan yang diperhalusi dalam pelbagai aspek seperti HRTF, resolusi, kaedah ujian dan penyesuaian. Perkara yang lebih sukar untuk diperhalusi ialah hantaran kepala, kerana kaedah penjanaan hantaran kepala itu sendiri lebih memakan masa dan susah payah Ia perlu memainkan setiap titik pada jarak yang berbeza di seluruh ruang sfera, dan kemudian mencubanya saluran telinga. Pada masa ini, sesetengah sarjana sedang mengkaji cara menjana tahap pemurnian yang sama dengan titik persampelan yang lebih sedikit, dan cara mencapai ketepatan yang lebih tinggi melalui interpolasi atau cara teknikal lain pada masa yang sama, dari perspektif jangka panjang, had Satu pemurnian disesuaikan pelaksanaan.

Yang ketiga ialah privasi dan kesan bunyi, dan alami pesta pendengaran yang dibawa oleh bunyi dalam jalur frekuensi yang berbeza. Harmonik yang berbeza atau jalur frekuensi yang berbeza memberi kita perasaan yang berbeza. Sebagai contoh, gema yang teruk akan menjejaskan pendengaran manusia, manakala gema yang sesuai akan membawa pengalaman mendengar yang kaya dari segi kualiti bunyi terutamanya gema awal, ia sering digunakan untuk menilai timbre, di bawah 3K Gema dan pantulan sisi akan membantu mewujudkan rasa yang lebih baik; ruang dan kedalaman, manakala komponen frekuensi tinggi akan membantu kita mencapai rasa sekeliling.

Wang Wenbing, ketua algoritma Rokid:

Niat asal untuk meneroka medan bunyi spatial

Mengapa Rokid mencipta medan bunyi spatial? Terdapat tiga sebab utama:

Pertama, rendaman. Kami telah mengejar integrasi dunia digital dan dunia fizikal, seperti kejelasan semasa bermain permainan, realiti mesyuarat dalam talian atau pendidikan dalam talian.

2. Interaksi maya dan nyata. Kami percaya bahawa masa depan di dunia ini akan menjadi gabungan realiti dan realiti Berdasarkan gabungan itu, banyak interaksi boleh dibuat, termasuk proses persepsi ruang, interaksi tingkah laku subjektif, dll. Persepsi ruang merujuk kepada aspek dunia seperti saiz objek, saiz ruang, bahan, dan lain-lain. Persepsi ini kemudiannya membentuk kesan kepada bunyi maya interaksi tingkah laku subjektif ialah campur tangan manusia, pemilihan, dan interaksi dengan bunyi dalam dunia digital.

Tiga, kualiti terbaik. AR Glass berbeza daripada telefon mudah alih, tablet, TV dan produk lain. Apabila anda menggunakan telefon mudah alih anda, pemotongan atau ketinggalan rangkaian boleh diterima, tetapi keperluan masa nyata untuk AR Glass yang dipakai pada mata anda adalah sangat tinggi. Bagaimanakah kita boleh mencapai keperluan masa nyata yang tinggi ini? Ini melibatkan pengoptimuman keseluruhan algoritma, kejuruteraan, sistem, perkakasan dan aplikasi.

Ini adalah misi yang kami laksanakan dengan harapan Rokid untuk terus mempromosikan dan mempopularkan keupayaan ini kepada orang ramai melalui produk AR Glass, kami juga berharap dapat menggunakan teknologi ini sebagai sebahagian daripada OS Yoda kami Keupayaan asas dikeluarkan, dengan itu secara tidak langsung memberi manfaat kepada pengguna dan memperkasakan semua lapisan masyarakat melalui penggunaan pembangun.

Tayangan ulang ucapan persidangan dan PPT kini dalam talian Pergi ke laman web rasmi untuk melihat kandungan yang menarik (https://www.php. .cn/link/53253027fef2ab5162a602f2acfed431 )

Atas ialah kandungan terperinci Wang Wenbing, ketua algoritma Rokid: "Bunyi" di bawah AR berada dalam keadaan "indah".. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam