Rumah > Artikel > Peranti teknologi > Kecerdasan Buatan: Teknologi Pengecaman Pertuturan
Hari ini saya akan memperkenalkan kepada anda beberapa pengetahuan tentang pengecaman pertuturan, saya harap ia akan membantu anda!
Pertuturan merujuk kepada bunyi yang dikeluarkan oleh manusia melalui organ vokalnya, yang mempunyai makna tertentu dan digunakan untuk komunikasi.
Storan pertuturan dalam komputer: Ia disimpan dalam bentuk fail bentuk gelombang Perubahan dalam suara dipantulkan melalui bentuk gelombang, supaya maklumat parameter seperti keamatan bunyi dan panjang bunyi boleh diperolehi.
Parameter julat vokal: Spektrum Fourier, frekuensi Mel kepada pekali spektrum, terutamanya digunakan untuk mengekstrak perbezaan dalam kandungan pertuturan dan timbre untuk mengenal pasti maklumat pertuturan lagi.
Pengecaman pertuturan hanyalah proses menukar kandungan pertuturan kepada teks secara automatik.
Bidang yang diliputi: akustik, kecerdasan buatan, pemprosesan isyarat digital, psikologi, dsb.
Input untuk pengecaman pertuturan: urutan memainkan fail bunyi.
Output pengecaman pertuturan: Hasil output ialah urutan teks.
Pengecaman pertuturan memerlukan empat bahagian: pengekstrakan ciri, model akustik, model pertuturan, penyahkod pertuturan dan algoritma carian.
Pengekstrakan ciri: Ekstrak isyarat untuk dianalisis daripada isyarat asal Peringkat ini terutamanya termasuk operasi pra-pemprosesan seperti penyeragaman amplitud pertuturan, pembetulan tindak balas frekuensi, pembingkaian, tingkap dan pengesanan titik mula dan tamat. Model akustik menyediakan vektor ciri yang diperlukan.
Model akustik: Bergantung pada model akustik untuk menganalisis parameter pertuturan (frekuensi forman pertuturan, amplitud, dll.) dan menganalisis parameter ramalan linear pertuturan.
Model bahasa: Berdasarkan teori linguistik yang berkaitan, hitung kebarangkalian urutan frasa yang mungkin bagi klip bunyi.
Penyahkodan pertuturan dan algoritma carian: Cari laluan paling sesuai berdasarkan ruang carian yang dibina oleh model akustik + kamus sebutan + model pertuturan. Teks akhirnya dikeluarkan selepas penyahkodan selesai.
Sistem pengecaman pertuturan yang lengkap termasuk: prapemprosesan, pengekstrakan ciri, latihan model akustik, latihan model bahasa dan penyahkod pertuturan.
4.1 Prapemprosesan
Proses input isyarat bunyi asal, tapis bunyi latar belakang dan maklumat tidak penting, dan juga cari permulaan dan akhir isyarat pertuturan. Menamatkan, membingkai suara, meningkatkan bahagian frekuensi tinggi isyarat dan operasi lain.
4.2 Pengekstrakan Ciri
Kaedah pengekstrakan ciri yang paling biasa digunakan ialah Melton Spectral Coefficient (MFCC) kerana ia mempunyai imuniti bunyi yang baik dan keteguhan.
4.3 Latihan model akustik
Parameter model akustik dilatih berdasarkan parameter ciri perpustakaan pertuturan Xuanlian, supaya ia boleh dipadankan dengan model akustik semasa pengecaman untuk mendapatkan hasil yang sepadan. Pada masa ini, sistem pengecaman pertuturan arus perdana biasanya menggunakan HMM untuk pemodelan model akustik.
4.4 Latihan model bahasa
digunakan untuk meramalkan urutan perkataan yang lebih berkemungkinan betul.
4.5 Penyahkod pertuturan
Penyahkod ialah proses pengecaman dalam teknologi pengecaman pertuturan berdasarkan isyarat pertuturan input, ia kemudiannya digabungkan dengan model akustik HMM terlatih dan bahasa Model dan kamus sebutan mewujudkan ruang carian dan mencari laluan yang paling sesuai mengikut algoritma carian. Untuk mencari rentetan perkataan yang paling sesuai.
5. Senario penggunaan pengecaman pertuturan
Pengecaman pertuturan digunakan secara meluas dalam kehidupan harian dan terbahagi terutamanya kepada aplikasi tertutup dan terbuka.
Aplikasi tertutup: terutamanya merujuk kepada penggunaan arahan kawalan khusus.
Contohnya, terdapat rumah pintar biasa, seperti mengawal suis lampu, suis pemanas air, pelarasan suhu, menghidupkan penghawa dingin, dsb. melalui arahan suara, yang sangat memperkayakan kehidupan seharian kita; 🎜>Aplikasi terbuka: Buka utama Pengilang menyediakan perkhidmatan pengecaman pertuturan, yang biasanya digunakan dalam awan awam atau awan peribadi untuk menyediakan SDK yang sepadan, membenarkan pelanggan yang menggunakan perkhidmatan untuk memanggil perkhidmatan pengecaman pertuturan.
Senario biasa termasuk kaedah input, output masa nyata sari kata persidangan, konfigurasi sari kata penyuntingan video, dsb.
Atas ialah kandungan terperinci Kecerdasan Buatan: Teknologi Pengecaman Pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!