Rumah  >  Artikel  >  The Future Speaks: Ejen Suara AI Masa Nyata Dengan Latensi Sangat Rendah

The Future Speaks: Ejen Suara AI Masa Nyata Dengan Latensi Sangat Rendah

James Robert Taylor
James Robert Taylorasal
2024-09-24 16:34:31499semak imbas

Mod suara telah menjadi ciri utama AI perbualan dengan pantas, membuatkan pengguna selesa dan membenarkan mereka berinteraksi dengan cara yang paling semula jadi — melalui pertuturan. OpenAI terus melancarkan jejak dengan pengenalan ejen suara AI masa nyata yang beroperasi pada kependaman kurang daripada 500ms. Teknologi di sebalik pencapaian ini kini merupakan sumber terbuka, memberikan akses yang tiada tandingan kepada alatan yang memungkinkan untuk membina ejen suara responsif berkualiti tinggi.

thumbnail (1).jpg

Mod suara mempunyai cepat menjadi ciri utama AI perbualan, memudahkan pengguna dan membenarkan mereka berinteraksi dengan cara yang paling semula jadi — melalui pertuturan. OpenAI terus melancarkan jejak dengan pengenalan ejen suara AI masa nyata yang beroperasi pada kependaman kurang daripada 500ms. Teknologi di sebalik pencapaian ini kini merupakan sumber terbuka, memberikan akses yang tiada tandingan kepada alatan yang memungkinkan untuk membina ejen suara responsif berkualiti tinggi.

OpenAI tidak melakukan sebarang pukulan. Apabila mereka membangunkan keupayaan suara untuk ChatGPT, mereka membawa masuk bakat terbaik untuk pemutus dan pengarahan untuk memastikan suara itu mengasyikkan sambil tetap menjadikannya seolah-olah mereka milik. Kumpulan 400 uji bakat itu kemudiannya dikurangkan kepada lima yang tersedia hari ini. Bukannya ia berjalan lancar; bukan apabila syarikat itu terpaksa menangguhkan "Sky" kerana persamaannya yang ketara dengan Scarlett Johansson.

Tetapi keterujaan sebenar terletak pada perkembangan terkini: keupayaan untuk memanfaatkan teknologi ini secara tempatan. Bayangkan mempunyai pemprosesan pertuturan ke pertuturan masa nyata dengan kependaman di bawah 500ms pada GPU anda sendiri. Ia bukan lagi impian yang jauh: sistem kini adalah sumber terbuka sepenuhnya.

Bagaimana Ia Berfungsi?

Untuk mencapai kependaman minimum sedemikian, saluran paip AI dibahagikan kepada komponen yang berbeza, setiap satu dioptimumkan untuk kelajuan dan kecekapan:

1. Pengesanan Aktiviti Suara (VAD)

Saluran paip bermula dengan modul Silero VAD v5, bertanggungjawab untuk mengesan apabila pengguna telah selesai bercakap. Ia adalah "penjaga pintu" yang mencetuskan peringkat pemprosesan seterusnya.

2. Transkripsi Masa Nyata (Pertuturan-Ke-Teks)

Bahagian aliran ini menggunakan beberapa model yang lebih canggih, seperti Whisper atau DeepSpeech, untuk menyalin pertuturan pengguna ke dalam teks. Sebagai contoh, Whisper beroperasi dalam masa nyata, dengan faktor 0.5; Oleh itu, ia boleh memproses pertuturan pada dua kali ganda kelajuan masa nyata dan menyampaikan transkripsi yang tepat dalam kira-kira 100 milisaat.

3. Penjanaan Respons 

Semasa transkripsi sedang dijalankan, model bahasa besar (LLM) mula meramalkan kemungkinan respons secara serentak. Dalam masa 200 milisaat, sistem boleh menjana balasan berasaskan teks yang berkaitan.

4. Sintesis Pertuturan (Text-To-Speech)

Respons yang dijana segera ditukarkan kepada pertuturan, menggunakan pensintesis pertuturan pantas, yang mengambil masa 200 ms lagi untuk menghasilkan audio berkualiti tinggi.

Kecekapan Melalui Selari Pemprosesan

Rahsia kepada kelajuan yang mengagumkan ini terletak pada pemprosesan selari. Berbeza dengan pengendalian komponen secara berurutan, atau pengendalian satu tugas pada satu masa, sistem melakukan transkripsi, penjanaan tindak balas dan sintesis pertuturan secara serentak. Reka bentuk hujung ke hujung ini memastikan setiap bahagian proses berfungsi secara serentak, dengan sangat mengurangkan masa keseluruhan yang diperlukan untuk menyelesaikan interaksi pengguna

Sebagai contoh, apabila sistem mengesan penghujung pertuturan, sistem memulakan proses transkripsi. Apabila transkripsi selesai, respons telah dihasilkan oleh model bahasa, dan sintesis pertuturan bermula serta-merta selepas itu. Pemprosesan selari sedemikian untuk tugasan memastikan interaksi keseluruhan, daripada pertuturan pengguna kepada tindak balas AI, selesai dalam masa kurang daripada 500 milisaat.

Kesimpulan: Membuka Kunci Masa Depan AI Suara 

Agen suara AI turun kepada kependaman 500ms untuk interaksi manusia-komputer ialah perkembangan penting dalam interaksi manusia-komputer yang lancar. Penggunaan teknologi ini adalah melalui transkripsi masa nyata, penjanaan respons pantas dan sintesis pertuturan sambil menyampaikan pengalaman perbualan ultra-responsif.

Ini bermakna, dengan keseluruhan saluran paip sumber terbuka, ia menjadi mungkin untuk menyepadukan ini teknologi ke dalam projek anda. Pembangun boleh memperhalusi dan menyesuaikan ejen suara mereka untuk pelbagai jenis aplikasi, termasuk pembantu suara dan juga avatar permainan masa nyata.

Ini bukan sekadar satu langkah ke hadapan; ini adalah jemputan untuk membina masa depan AI perbualan. Jadi, apa yang akan anda cipta dengannya?


Atas ialah kandungan terperinci The Future Speaks: Ejen Suara AI Masa Nyata Dengan Latensi Sangat Rendah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn