Rumah >Peranti teknologi >AI >Bagaimana untuk membangunkan pengecaman pertuturan
Pemahaman mendalam tentang bahasa semula jadi melalui penggunaan teknologi pembelajaran mendalam sentiasa menjadi tumpuan orang ramai. Anda tidak perlu mencarinya untuk mendengar muzik, anda tidak perlu menggunakan tangan anda untuk menghidupkan lampu, dan penghawa dingin boleh memahami suara anda... Adegan ini ditunjukkan dalam banyak karya filem dan televisyen , dan mereka juga mewakili konsep "kehidupan pintar" dalam fikiran ramai orang. Berdasarkan ini, dalam peningkatan pembangunan kecerdasan buatan, pemprosesan bahasa semula jadi telah menjadi medan pertempuran untuk perusahaan besar dan institusi penyelidikan saintifik.
Pada masa ini, trek interaksi suara telah menghimpunkan gergasi Internet, syarikat perkakasan terkenal, platform e-dagang, pengeluar peralatan rumah tradisional dan pelbagai syarikat permulaan kecerdasan buatan , terutamanya dalam beberapa tahun kebelakangan ini Pada tahun 2017, populariti produk interaksi suara yang diwakili oleh pembesar suara pintar di dalam dan luar negara telah banyak merangsang aplikasi dan pembangunan teknologi interaksi suara.
Kebelakangan ini, perkakasan rumah pintar yang paling popular sudah pasti pembesar suara Xiaomi AI. Sebaik sahaja produk ini dilancarkan, ia menyebabkan kesan yang besar dalam pasaran Ia dipanggil "pembesar suara dengan pengalaman interaktif terbaik", "orang yang bertanggungjawab dalam industri pembesar suara pintar", "pada masa ini perkakasan pintar 'paling popular'" oleh ramai. media... Pada pendapat editor, pembesar suara Xiaomi AI sangat baik, ya, tetapi tidak setakat yang mereka banggakan. Berdasarkan pengalaman penggunaan khusus orang di sekeliling editor, keupayaan pengecaman pertuturannya tidak begitu cemerlang dan tidak jauh berbeza daripada produk serupa arus perdana di pasaran. Kelebihan terbesarnya ialah dalam rantaian ekologi Melalui pembesar suara Xiaomi AI, ia boleh mengawal lampu meja Xiaomi, robot penyapu Xiaomi, kipas lantai Xiaomi dan peralatan perabot sokongan lain. Tidak dinafikan bahawa ini akan membawa orang selangkah lebih dekat kepada kehidupan pintar.
Dalam bidang kereta dan peranti mudah alih pintar, fungsi interaksi suara telah menjadi sangat popular. Semasa memandu, orang ramai sering tiada masa terluang dan tidak sepatutnya menggunakan tangan mereka untuk mengendalikan telefon bimbit mereka Pada masa ini, suara dalam kereta telah menjadi satu keperluan dan ciri standard Internet Kenderaan. Dalam era semasa ini di mana sambungan pintar dan pemanduan tanpa pemandu sangat popular, kereta baharu yang tidak mempunyai beberapa teknologi hitam pengecaman suara nampaknya terlalu malu untuk menggunakannya. Sistem SYNC Ford, sistem komunikasi dan hiburan multimedia dalam kenderaan Ford yang dilengkapi khas untuk telefon mudah alih dan pemain media digital, kini merupakan kes yang berjaya menggunakan teknologi interaksi suara dalam sistem dalam kenderaan dan telah digunakan secara meluas dalam banyak siri kenderaan Ford. Selepas gergasi Internet Apple melancarkan aplikasi pembantu suara pintar Siri dalam iPhone 4Snya, Google turut melancarkan perkhidmatan carian suara dan soal jawab pintar GoogleNow dalam sistem pengendalian telefon pintar Androidnya, Microsoft turut menggunakan teknologi suara pada Windows Phone, dan Samsung turut melancarkan ia pada masa yang sesuai.
Dalam bidang kewangan. Teknologi pengecaman pertuturan juga ada tempatnya. Baru-baru ini, China Construction Bank membuka cawangan perkhidmatan automatik di Daerah Huangpu, Shanghai, tempat robot melayani pelanggan. Robot ini dilengkapi dengan perisian pengecaman imbasan muka, yang boleh menjawab kebanyakan soalan pelanggan dan menyelesaikan kebanyakan keperluan perniagaan bank jalan raya biasa. Ia juga dilengkapi dengan perkhidmatan bantuan manual dan perkhidmatan profesional lain untuk memenuhi keperluan peribadi. Pelanggan diterima oleh robot, yang menggunakan fungsi pengecaman suara untuk berkomunikasi dengan orang ramai dan menjawab soalan pelanggan. Mereka juga boleh melengkapkan kebanyakan perkara yang boleh dilakukan oleh perkhidmatan manusia, termasuk membuka akaun, memindahkan wang dan melabur.
Selain itu, dalam bidang runcit baharu, aplikasi teknologi suara pintar juga sentiasa berkembang. Sebagai contoh, pada 18 Disember 2017, iFlytek dan Red Star Macalline mengumumkan pelan kerjasama strategik Pada masa hadapan, robot panduan membeli-belah pintar "Meimei" yang dibangunkan oleh iFlytek akan dilancarkan di kedai-kedai Red Star Macalline di seluruh negara.
Selain interaksi suara, pertuturan ke teks juga menjadi topik hangat dalam teknologi pengecaman pertuturan semasa. Pada zaman awal, fungsi ini menjadi kegemaran wartawan Menggunakan fungsi ini untuk mengatur manuskrip temu bual dan manuskrip ucapan dapat meningkatkan kecekapan kerja pada masa kini, fungsi ini diterima oleh orang biasa, dan boleh digunakan oleh orang tua dan orang muda mengalami kemalasan dan kanser Fungsi ini menggantikan menaip.
Hari ini, kemasukan modal, sokongan dasar dan pengembangan pasaran yang berulang telah menjadikan teknologi suara semakin matang, dan pasaran suara global juga telah memulakan tempoh pembangunan keemasan untuk pelaksanaan aplikasi. Menurut statistik yang berkaitan, skala industri suara pintar pada tahun 2016 hampir mencecah 6 bilion yuan, dan akan melebihi 10 bilion yuan pada 2017, peningkatan tahun ke tahun kira-kira 69%.
Berbeza dengan percambahan pengecaman pertuturan dalam banyak bidang, perkembangan teknologi pengecaman pertuturan agak perlahan dalam situasi ini, teknologi pengecaman pertuturan menemui banyak orang masalah dalam aplikasi praktikal.
Banyak syarikat kini mengatakan bahawa kadar pengecaman pertuturan mereka telah mencapai 97% atau bahkan 98%, tetapi dalam aplikasi sebenar, hasilnya tidak memuaskan. Untuk memberikan contoh yang lebih meyakinkan, sistem pengecaman pertuturan bahasa Cina yang dibangunkan oleh IBMT.JWatson Research Institute telah menduduki tempat pertama dalam pertandingan yang ditaja oleh DARPA di Amerika Syarikat selama tiga tahun berturut-turut Apabila sistem itu mengiktiraf program "News Network", yang kadar ralat adalah Kurang daripada 5%, tetapi apabila mengenal pasti kandungan lain, jurang adalah sangat besar. Dalam aplikasi praktikal, kadar pengecaman dipengaruhi terutamanya oleh faktor berikut:
Untuk pengecaman pertuturan Cina, dialek atau loghat akan mengurangkan kadar pengecaman.
Bunyi yang kuat di tempat awam mempunyai kesan yang besar pada kesan pengecaman Walaupun dalam persekitaran makmal, menaip pada papan kekunci dan menggerakkan mikrofon akan menjadi bunyi latar belakang.
Sampuk soalan Jika orang itu berhenti seketika semasa bercakap, mesin tidak akan dapat menyambungkan konteks dengan baik untuk menjadikan maksudnya lancar.
Di sini, timbul pula isu "bahasa lisan". Ia melibatkan pemahaman bahasa semula jadi dan akustik. Matlamat utama teknologi pengecaman pertuturan adalah untuk membolehkan pengguna mempunyai "perbualan manusia-mesin" yang semula jadi seperti "perbualan manusia dengan manusia Walau bagaimanapun, sebaik sahaja pengguna melakukan input suara dengan bercakap dengan manusia, tatabahasa bahasa pertuturan tidak diseragamkan dan Susunan kata yang tidak normal akan membawa kesukaran kepada analisis dan pemahaman semantik.
Sebelum ini, sesetengah orang menyatakan bahawa isu seperti loghat dan perbendaharaan kata baharu boleh diselesaikan melalui pengumpulan data dalam aplikasi praktikal teknologi pengecaman pertuturan. Apabila jumlah data bertambah, masalah ini dapat diselesaikan.
Dan masalah lain seperti "gangguan" memerlukan pelbagai model pembelajaran mendalam, seperti DNN, CNN, BLSTM (rangkaian neural memori jangka pendek dua arah), dsb., serta algoritma baharu untuk menyelesaikannya secara beransur-ansur .
Penggunaan teknologi selalunya memerlukan proses berulang Ia perlu berada dalam talian terlebih dahulu, dan kemudian mengumpul data di tempat kejadian untuk menilai, mengoptimumkan model dan meningkatkan pengalaman pengguna. Ia memerlukan beberapa lelaran untuk mencapai hasil yang terbaik. Teknologi AI lain adalah serupa. Ramai pengguna teknologi AI hari ini dengan mudah menyamakan keupayaan teknologi dan merasakan bahawa mereka harus melihat hasil serta-merta sebaik sahaja ia diperkenalkan. Apabila anda melihat bahawa keputusan sebenar tidak memuaskan, anda akan merasai jurang yang besar, kekecewaan dan berputus asa. Memang benar teknologi suara pintar telah mencapai tahap aplikasi GF, tetapi apabila ia benar-benar dilaksanakan, kita mesti memahami sepenuhnya kesukaran yang mungkin dihadapi dan bersedia secara mental untuk pertempuran yang berlarutan.
Boleh diramalkan dalam tempoh lima hingga sepuluh tahun yang lalu, aplikasi sistem pengecaman pertuturan akan lebih meluas. Pelbagai produk sistem pengecaman pertuturan akan muncul di pasaran. Orang ramai juga akan menyesuaikan corak pertuturan mereka untuk menampung pelbagai sistem pengecaman. Tidak mustahil untuk membina sistem pengecaman pertuturan yang setanding dengan manusia dalam jangka pendek Membina sistem sebegini masih menjadi cabaran besar bagi umat manusia. Sukar untuk diramalkan bila sistem pengecaman pertuturan selengkap manusia boleh dibina. Sama seperti pada tahun 1960-an, siapa yang boleh meramalkan bahawa teknologi VLSI hari ini akan memberi kesan yang besar kepada masyarakat kita.
Atas ialah kandungan terperinci Bagaimana untuk membangunkan pengecaman pertuturan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!