Rumah  >  Artikel  >  Peranti teknologi  >  Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat

Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat

王林
王林ke hadapan
2023-09-17 13:21:101413semak imbas

Dengan pembangunan 5G dan teknologi kecerdasan buatan, suara pintar telah menembusi kehidupan seharian orang ramai dengan pelbagai produk terminal pintar, membawa lebih banyak kemudahan dan kemungkinan. Sebagai penyedia produk terminal pintar dan perkhidmatan Internet mudah alih di pasaran baru muncul, Transsion menumpukan pada inovasi berterusan dalam bidang kecerdasan buatan, menggalakkan penyelidikan dan aplikasi teknologi suara AI secara berterusan, meneroka keperluan senario pengguna yang lebih setempat, dan membawa senario penuh kecerdasan kepada pengguna dalam pasaran baru muncul.

Pada masa ini, TRANSSION telah membentuk keupayaan teknologi suara AI asasnya sendiri dalam pengecaman pertuturan, pemahaman semantik, sintesis pertuturan, pemprosesan bahasa semula jadi, graf pengetahuan, dll., telah membina kelebihan dalam data suara bahasa kecil, dan telah berkembang dalam pembantu suara berbilang bahasa , Kejayaan besar telah dibuat dalam teknologi pengesanan pemalsuan manusia dan suara digital. Sejak awal tahun ini, jabatan teknologi AI Transsion terus mencapai keputusan, memenangi keputusan hebat dalam Cabaran Pemahaman Bahasa Pertuturan ICASSP 2023 SLU dan Cabaran Antarabangsa Pengesanan Pemalsuan Dalam Suara IJCAI 2023 ADD, dan menerbitkan Digital Human Multi-Model di persidangan akademik perdana multimedia antarabangsa ICME 2023. Kertas kerja akademik berkaitan interaksi dinamik.

Bina pembantu suara berbilang bahasa untuk ekosistem kandungan interaktif suara tempatan

Pembantu suara ialah salah satu aplikasi standard telefon pintar Teknologi terasnya ialah interaksi suara dan pemahaman bahasa semula jadi, yang direka untuk membantu pengguna melaksanakan tugas sasaran dengan lebih cepat dan cekap. Berhadapan dengan permintaan untuk interaksi suara tempatan dalam pasaran baru muncul, TRANSSION telah terlibat secara mendalam dalam teknologi pembantu suara berbilang bahasa sejak sekian lama, memfokuskan pada pemahaman keperluan pengguna tempatan dan membentuk penyelesaian teknikal yang mendalam dan praktikal pengalaman dalam proses penerokaan dan penyelidikan dan pembangunan.

Pada persidangan antarabangsa teratas ICASSP pada tahun 2023, Jabatan Teknologi Transsion AI mencapai kejayaan besar dalam Cabaran SLU (Pemahaman Bahasa Pertuturan). Dengan prestasi cemerlang mereka dalam pengecaman pertuturan dan pemahaman semantik, mereka memenangi tempat pertama dalam sublagu pembantu suara luar talian dengan ketepatan 71.97%. Kertas penyertaan mereka "Sistem Dua Peringkat untuk Pemahaman Bahasa Pertuturan" turut disertakan oleh Institut Jurutera Elektrik dan Elektronik IEEE

Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat

Rakan sekerja dari Jabatan Teknologi AI Transsion berkongsi hasil penyelidikan di ICASSP 2023

Pada masa ini, pembantu suara kebanyakannya berorientasikan kepada bahasa arus perdana, tetapi mempunyai kurang liputan bahasa khusus, kumpulan orang tertentu dan subbahagian lain. Menyasarkan loghat tempatan dan bahasa minoriti pengguna di pasaran baru muncul seperti Afrika dan Asia Selatan, TRANSSION telah membina sistem pengeluaran data kos rendah dan berkualiti tinggi tempatan berdasarkan sumber pengguna telefon mudah alih yang besar untuk menyelesaikan masalah kekurangan korpus dan kekurangan data dalam bahasa minoriti. Atas dasar ini, Transsion membangunkan pembantu suara berbilang bahasa yang boleh menyesuaikan diri dengan ciri bahasa dan budaya pengguna tempatan dalam pasaran baru muncul, membantu pengguna tempatan menggunakan bahasa tempatan dengan lebih mudah untuk interaksi suara dengan telefon mudah alih. Pada masa ini, teknologi pembantu suara berbilang bahasa Transsion menyokong interaksi suara dan keupayaan pemahaman bahasa semula jadi dalam bahasa Inggeris, Perancis, Hausa, Arab, Swahili dan bahasa lain, meliputi panggilan kenalan, pelancaran pantas APP, main balik muzik, Lebih daripada 100 senario penggunaan seperti pemesejan WhatsApp dan bersembang

Untuk memenuhi keperluan pengguna tempatan dalam perkhidmatan hayat, teknologi pembantu suara AI berbilang bahasa Transsion akan terus digunakan pada lebih banyak senario kehidupan, perjalanan, belajar dan kerja untuk membina ekosistem perkhidmatan kandungan AI merentas bahasa, yang membolehkan perkhidmatan suara pintar untuk menembusi semua aspek kehidupan tempatan dan memberi manfaat kepada lebih ramai orang yang bercakap bahasa kecil​​​

Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat

AI+teknologi manusia digital memperkasakan perniagaan pelbagai senario Transsion

Dengan perkembangan pesat teknologi kecerdasan interaktif, manusia digital beralih daripada inovasi teknologi kepada aplikasi industri, memainkan peranan dalam bidang hiburan, pendidikan, perubatan dan lain-lain. Transsion secara aktif menerima peluang pembangunan AI, menggunakan teknologi manusia digital lebih awal, dan telah mewujudkan teknologi pautan penuh yang lengkap dan keupayaan penyelidikan kendiri kejuruteraan. Sistem manusia digital Transsion termasuk orang sebenar 2D dan manusia digital realistik 3D Ia mempunyai sumber data berdasarkan pengecaman pertuturan berbilang bahasa, sintesis pertuturan, bangun suara, pemahaman bahasa semula jadi dan keupayaan manusia digital Ia boleh digunakan dalam dialog suara berbilang bahasa, manusia reka bentuk dan Penampilan, interaksi adegan pintar dan kawasan lain telah membentuk ciri setempat dan kepimpinan industri mereka sendiri. Pada Januari tahun ini, sistem manusia digital Transsion menerima pensijilan standard berwibawa dalam bidang manusia digital yang dikeluarkan oleh Akademi Teknologi Maklumat dan Komunikasi China. Ini juga merupakan satu-satunya sistem manusia digital daripada pengeluar telefon mudah alih China yang telah lulus penilaian Akademi Teknologi Maklumat dan Komunikasi China dan berdasarkan "dialog interaktif".

Untuk meningkatkan kesan simulasi imej maya dan mensintesis video manusia digital yang realistik dan ekspresif, jabatan teknologi AI Transsion secara bebas membangunkan teknologi hujung ke hujung Dalam proses mengoptimumkan kualiti penjanaan video manusia digital, berasaskan pada rangkaian Unet Rangka kerja teknikal baharu struktur Unet bersambung padat dicadangkan, dan struktur pengekod CLIP diperkenalkan untuk menggunakan maklumat semantik teks untuk menambah baik kesan animasi mulut manusia digital. Pada masa yang sama, teknologi ini mencadangkan peta ketumpatan kebarangkalian teknologi titik utama muka, yang meningkatkan maklumat modal rangkaian model dan meningkatkan kualiti penjanaan model. Kejayaan teknologi ini boleh menjadikan imej wajah orang digital lebih realistik dan halus, sambil meningkatkan konsistensi bentuk suara dan bibir, dan kesan penjanaannya telah mencapai tahap yang terkemuka dari segi akademik. Kertas akademik berkaitan "CPNet: Memanfaatkan Pemeluwap Perhatian berasaskan CLIP dan Panduan Peta Kebarangkalian untuk Penjanaan Wajah Bercakap Kesetiaan Tinggi" telah berjaya diterima oleh persidangan akademik utama multimedia antarabangsa ICME 2023 (IEEE International Conference on Multimedia and Expo).

Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat

Pada masa ini, Transsion Digital Human System telah digunakan secara meluas dalam pelbagai senario perniagaan. Ia bukan sahaja digunakan sebagai panduan membeli-belah pintar di kedai telefon mudah alih luar negara untuk menyediakan pengguna dengan rujukan untuk membeli telefon bimbit, tetapi juga boleh menyediakan fungsi pembantu suara pintar untuk pelbagai produk terminal pintar untuk meningkatkan pengalaman pengguna. Pada masa hadapan, Transsion akan terus menggunakan teknologi "AI + manusia digital" untuk memperkasakan perniagaan dalam pelbagai senario, meneroka bentuk perniagaan baharu secara aktif seperti pembantu suara manusia digital dan sistem perkhidmatan pelanggan, serta membawa pengguna pengalaman interaktif pintar baharu#🎜 🎜#

Teruskan membina keupayaan teknikal asas suara AI

Hari ini, dengan perkembangan pesat teknologi AI, pemalsuan audio dan audio yang dihasilkan oleh algoritma sudah boleh menjadikan pemalsuan kelihatan nyata. Sangat sukar bagi pengguna biasa untuk membezakan keaslian audio. Untuk mengekalkan kredibiliti maklumat dan memastikan keselamatan sosial, teknologi pengesanan pemalsuan suara telah menjadi penting dan telah menjadi hala tuju penyelidikan baharu dalam bidang kecerdasan buatan. Memfokuskan pada senario perniagaan produk terminal pintar dan dipandu oleh keperluan pengguna tempatan, Transsion terus memperluaskan keupayaan teknikal asasnya untuk suara AI, menggunakan bidang teknologi baharu dan telah membuat penemuan besar dalam teknologi pengesanan pemalsuan suara.

Jabatan Teknologi Transsion AI telah menganjurkan Cabaran Pengesanan Deepfake Audio Kedua ADD (Cabaran Pengesanan Deepfake Audio Kedua) "Tampering" di Persidangan Bersama Antarabangsa ke-32 mengenai Kepintaran Buatan IJCAI 2023 (Persidangan Bersama Antarabangsa Ke-32 mengenai Kepintaran Buatan) memenangi kedua letak dalam trek Lokasi Rantau Manipulasi. Semasa pertandingan, jabatan teknologi AI Transsion secara bebas membangunkan algoritma dan teknologi model AI yang inovatif yang boleh mengenal pasti dan mengesan gangguan suara dengan tepat dalam audio, dengan itu berkesan memastikan keaslian dan keaslian audio digital dan membina asas untuk aplikasi AI dan keselamatan maklumat idea. Kertas kerja akademik yang berkaitan telah berjaya diterbitkan pada persidangan IJCAI 2023 Workshop on Deepfake Audio Detection and Analysis (DADA 2023) ini.

Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat

Dalam langkah seterusnya, jabatan teknologi AI Transsion akan terus meneroka aplikasi teknologi pengesanan pemalsuan suara dalam pada produk terminal pintar Transsion, seperti semakan penipuan panggilan untuk melindungi privasi dan keselamatan pengguna, dsb., untuk meningkatkan pengguna secara berterusan pengalaman.

Pada masa hadapan, Transsion akan terus bekerja keras dalam bidang teknologi multi-modal suara AI, memfokuskan kepada keperluan perniagaan teras "telefon bimbit + perkhidmatan Internet mudah alih + peralatan rumah dan aksesori digital", digabungkan dengan deep cerapan tentang pasaran baru muncul dan pengguna tempatan, Menyediakan pengguna pengalaman hidup pintar yang memenuhi keperluan mereka, membentuk ekosistem perkhidmatan kandungan AI setempat, dan terus memenuhi keperluan aplikasi berbilang bahasa, berbilang senario, diperibadikan dan pintar.

Atas ialah kandungan terperinci Memupuk teknologi multi-modal suara AI untuk mencapai pengalaman interaktif pintar setempat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:sohu.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam