cari
RumahPeranti teknologiAIPenerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan 'pengoptimuman algoritma + inovasi kejuruteraan' Huoshan Voice

Sejak sekian lama, Volcano Engine telah menyediakan penyelesaian sari kata video pintar berdasarkan teknologi pengecaman pertuturan untuk platform video popular. Ringkasnya, ia adalah fungsi yang menggunakan teknologi AI untuk menukar secara automatik suara dan lirik dalam video kepada teks untuk membantu dalam penciptaan video. Walau bagaimanapun, dengan pertumbuhan pesat pengguna platform dan keperluan untuk jenis bahasa yang lebih kaya dan lebih pelbagai, teknologi pembelajaran diselia yang digunakan secara tradisional telah mencapai kesesakan, yang telah meletakkan pasukan dalam masalah sebenar.

Seperti yang kita semua tahu, pembelajaran seliaan tradisional akan sangat bergantung pada data seliaan beranotasi secara manual, terutamanya dalam pengoptimuman berterusan bahasa besar​​dan permulaan dingin bahasa kecil. Mengambil bahasa utama seperti bahasa Cina, Mandarin dan Inggeris sebagai contoh, walaupun platform video menyediakan data suara yang mencukupi untuk senario perniagaan, selepas data yang diselia mencapai skala tertentu, ROI anotasi berterusan akan menjadi sangat rendah, dan kakitangan teknikal semestinya perlu mempertimbangkan cara menggunakan ratusan data yang diselia dengan berkesan untuk berpuluh-puluh ribu jam data tidak berlabel untuk meningkatkan lagi prestasi pengecaman pertuturan bahasa besar.

Bagi bahasa atau dialek yang agak khusus, kos pelabelan data adalah tinggi disebabkan oleh sumber, tenaga kerja dan sebab lain. Apabila terdapat sedikit data yang dilabelkan (mengikut urutan 10 jam), kesan latihan yang diselia adalah sangat lemah dan mungkin gagal untuk menumpu dengan betul dan data yang dibeli selalunya tidak sepadan dengan senario sasaran dan tidak dapat memenuhi keperluan perniagaan.

Oleh itu, Pasukan Suara Enjin Gunung Berapi perlu segera mengkaji cara menggunakan sepenuhnya sejumlah besar data tidak berlabel pada kos pelabelan serendah mungkin, meningkatkan kesan pengecaman dengan jumlah yang kecil data berlabel, dan melaksanakannya dalam perniagaan sebenar. Oleh itu, teknologi pra-latihan tanpa pengawasan telah menjadi kunci untuk mempromosikan keupayaan platform video ASR (Pengecaman Pertuturan Automatik / Pengecaman Pertuturan Automatik) kepada bahasa kecil.

Walaupun komuniti akademik telah mencapai banyak kemajuan yang ketara dalam bidang pertuturan pra-latihan tanpa pengawasan sejak beberapa tahun kebelakangan ini, termasuk Wav2vec2.0[1] , HuBERT[2], dsb., tetapi terdapat beberapa kes pelaksanaan dalam industri untuk rujukan. Secara keseluruhan, Pasukan Volcano Voice percaya bahawa tiga sebab berikut menghalang pelaksanaan teknologi pra-latihan tanpa pengawasan:

  1. Parameter model adalah besar dan overhed inferens adalah tinggi. Sebilangan besar data tidak berlabel memerlukan pra-latihan tanpa pengawasan dengan model yang lebih besar untuk mendapatkan perwakilan pertuturan berkualiti tinggi Walau bagaimanapun, jika model sedemikian digunakan secara langsung dalam talian, ia akan membawa kos inferens yang tinggi.
  2. Pralatihan tanpa pengawasan hanya menumpukan pada pembelajaran perwakilan pertuturan Ia memerlukan penyahkodan bersama dengan sejumlah besar model bahasa terlatih teks biasa untuk mencapai kesan yang diingini dan tidak serasi dengan. enjin inferens ASR hujung ke hujung.
  3. Pra-latihan tanpa pengawasan adalah mahal, jangka panjang dan tidak stabil. Mengambil Wav2vec2.0 sebagai contoh, model dengan parameter 300M telah dilatih terlebih dahulu untuk 600,000 langkah menggunakan 64 V100 GPU, yang mengambil masa sehingga setengah bulan Selain itu, disebabkan perbezaan dalam pengedaran data, latihan mengenai data perniagaan terdedah kepada perbezaan.

Memandangkan tiga perkara utama di atas, penambahbaikan algoritma dan pengoptimuman kejuruteraan telah dijalankan untuk membentuk pelan pelaksanaan yang lengkap dan mudah dipromosikan. Artikel ini akan memperkenalkan penyelesaian secara terperinci daripada proses pelaksanaan, pengoptimuman algoritma dan pengoptimuman kejuruteraan.

Proses pelaksanaan

Rajah berikut ialah proses pelaksanaan pra-latihan ASR bahasa sumber rendah tanpa pengawasan, yang boleh dibahagikan secara kasar kepada data Terdapat tiga peringkat: pengumpulan, latihan model benih dan migrasi model.

Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan pengoptimuman algoritma + inovasi kejuruteraan Huoshan Voice

Proses pelaksanaan ASR berdasarkan pra-latihan tanpa pengawasan

Secara khusus, peringkat pertama pengumpulan data boleh mengumpul data ucapan tidak berlabel, ucapan berlabel dan teks biasa dalam bahasa sasaran melalui pengalihan bahasa, perolehan dan cara lain.

Peringkat kedua latihan model benih ialah proses klasik "pra-latihan tanpa pengawasan + penalaan halus diselia". Pada peringkat ini, model akustik akan diperoleh, yang biasanya diperhalusi berdasarkan fungsi kehilangan Klasifikasi Temporal Connectionist (CTC[3]). Model akustik digabungkan dengan model bahasa yang dilatih pada teks tulen membentuk sistem pengecaman pertuturan yang lengkap, yang boleh mencapai hasil pengecaman yang baik. Sebab mengapa ia dipanggil model seed adalah kerana model ini tidak sesuai untuk dilancarkan terus ke dalam perniagaan The Volcano Engine lebih suka menggunakan LAS (Listen, Attend and Spell[4]) atau RNN-. T (Recurrent Neural Network Transducer[5]) model hujung ke hujung sedemikian digunakan dalam talian.

Sebab utama ialah LAS/RNN-T mempunyai keupayaan pemodelan hujung ke hujung yang sangat baik Pada masa yang sama, dalam beberapa tahun kebelakangan ini, ia telah mencapai hasil yang lebih baik daripada CTC tradisional model, dan dalam Ia semakin digunakan dalam industri. Enjin Volcano telah melakukan banyak kerja pengoptimuman pada inferens dan penggunaan model pengecaman pertuturan hujung ke hujung, dan telah membentuk penyelesaian yang agak matang untuk menyokong banyak perniagaan. Sambil mengekalkan kesan tanpa kerugian, jika enjin inferens hujung ke hujung boleh digunakan, kos operasi dan penyelenggaraan enjin boleh dikurangkan dengan banyak.

Berdasarkan ini, pasukan mereka bentuk fasa ketiga, iaitu fasa migrasi model. Terutamanya menggunakan idea penyulingan pengetahuan, gunakan model benih untuk melabel pseudo data tidak berlabel, dan kemudian menyediakan model LAS dengan bilangan parameter yang lebih kecil untuk latihan, secara serentak merealisasikan penghijrahan struktur model dan pemampatan pengiraan inferens. Keberkesanan keseluruhan proses telah disahkan pada ASR Kantonis Keputusan percubaan khusus ditunjukkan dalam jadual berikut:

Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan pengoptimuman algoritma + inovasi kejuruteraan Huoshan Voice<.>

Pertama sekali, pasukan membeli 1kh data produk siap untuk perbandingan percubaan Prestasi latihan terus model LAS adalah lemah, dengan kadar ralat aksara (Kadar Ralat Aksara, CER) setinggi. 44.2%. Selepas analisis, Volcano Engine percaya bahawa sebab utama adalah ketidakpadanan antara medan data perolehan (perbualan) dan set ujian perniagaan (video) Eksperimen awal pada wav2vec2.0 juga menemui fenomena yang sama.

Berbanding dengan menggunakan data perolehan untuk pra-latihan, Enjin Volcano menggunakan data yang konsisten dengan medan sasaran untuk pra-latihan, dan CER pada set ujian perniagaan boleh dikurangkan daripada 42.0% kepada 29.4%; apabila data tidak berlabel senario perniagaan terkumpul kepada 50kh, parameter model meningkat daripada 100M kepada 300M, dan CER terus menurun kepada 23.1%.

Akhir sekali, Enjin Volcano mengesahkan kesan migrasi model dan menggabungkan model bahasa Kantonis untuk menyahkod 50kh data tidak berlabel untuk mendapatkan Label pseudo, melatih model LAS. Dapat dilihat bahawa model LAS berdasarkan latihan pseudo-label pada asasnya boleh mengekalkan kesan pengecaman model benih CTC, dan bilangan parameter model dikurangkan sebanyak satu pertiga, dan boleh digunakan secara langsung berdasarkan enjin inferens hujung ke hujung yang matang.

Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan pengoptimuman algoritma + inovasi kejuruteraan Huoshan Voice

Perbandingan parameter model dan CER

Akhir sekali, dalam model struktur Di bawah premis bahawa bilangan parameter kekal tidak berubah, pasukan menggunakan 50kh data perniagaan tidak berlabel dan 10j data perniagaan berlabel untuk mencapai CER sebanyak 23.0%, iaitu penurunan sebanyak 48% berbanding model garis dasar. Selepas menyelesaikan masalah volum pengiraan dan keserasian dalam talian, kami menumpukan pada teknologi pra-latihan teras tanpa pengawasan dalam keseluruhan proses Untuk wav2vec2.0, Enjin Volcano melaksanakan kerja dari dua dimensi: algoritma dan kejuruteraan Dioptimumkan.

Pengoptimuman algoritma

wav2vec2.0, sebagai model pra-latihan diselia sendiri yang dicadangkan oleh Meta AI pada 2020, membuka perwakilan tanpa pengawasan ucapan Satu lembaran baru dalam pembelajaran. Idea teras ialah menggunakan modul pengkuantitian untuk mendiskrisikan ciri input, dan melalui pengoptimuman pembelajaran perbandingan, badan utama model merealisasikan ciri input separa topeng rawak yang serupa dengan BERT.

Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan pengoptimuman algoritma + inovasi kejuruteraan Huoshan Voice

Rajah skematik struktur model wav2vec2.0 (Sumber: wav2vec 2.0 Rajah 1 [1])

Terdapat dua kesukaran yang dihadapi semasa melatih model wav2vec 2.0 mengenai perniagaan Masalah data: Satu ialah kecekapan latihan adalah rendah, dan model besar 300M dengan 64 kad mengambil masa lebih daripada sepuluh hari untuk dilatih; Wav2vec yang cekap dicadangkan untuk enjin Volcano ini bagi mengurangkan dua masalah di atas.

Mengenai masalah kecekapan latihan yang rendah, pasukan mempercepatkan latihan dengan mengurangkan kadar bingkai model, menggantikan ciri input daripada bentuk gelombang kepada bank penapis, dan kadar bingkai diubah daripada 20ms asal menjadi 40ms. Ini bukan sahaja mengurangkan jumlah pengiraan lilitan pengekstrakan ciri, tetapi juga mengurangkan panjang pengekodan dalaman Transformer, dengan itu meningkatkan kecekapan latihan. Untuk masalah latihan yang tidak stabil, ia diselesaikan dengan menganalisis kaedah pembelajaran pra-latihan tanpa pengawasan dan pertimbangan komprehensif digabungkan dengan situasi sebenar data perniagaan Perbandingan kerugian pembelajaran boleh dinyatakan dengan formula berikut:

Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan pengoptimuman algoritma + inovasi kejuruteraan Huoshan Voice

Untuk setiap bingkai t, ct mewakili output pengekod bingkai, qt mewakili output terkuantisasi bingkai. Selain itu, beberapa bingkai lain perlu dijadikan sampel sebagai sampel negatif, jadi set bingkai semasa dan bingkai sampel negatif adalah bersamaan dengan senarai perkataan yang dibina secara dinamik Qt .

Matlamat pengoptimuman pembelajaran kontrastif adalah untuk memaksimumkan persamaan antara pengekodan bingkai semasa dan hasil pengkuantitian bingkai, sambil meminimumkan persamaan antara pengekodan bingkai semasa dan hasil pengkuantitian bagi bingkai lain. Tidak sukar untuk mencari bahawa persamaan antara sampel negatif dan sampel positif dan bilangan sampel negatif secara langsung menentukan kesan pembelajaran kontrastif. Dalam operasi sebenar, purata panjang data perniagaan adalah pendek, dan ia adalah jauh dari cukup untuk hanya menyediakan 50 sampel negatif dalam satu ayat. Memandangkan persamaan antara bingkai pertuturan bersebelahan adalah sangat tinggi, adalah perlu untuk memastikan kesinambungan kawasan topeng, dengan itu meningkatkan kesukaran pembinaan semula perwakilan.

Untuk menyelesaikan dua masalah di atas, Enjin Volcano telah mencadangkan dua penambahbaikan:

  1. Strim data sama panjang: Semasa proses pra-latihan, keseluruhan set latihan dianggap sebagai sekeping audio yang disambungkan dari awal dan akhir setiap ayat, dan setiap sampel latihan dipintas daripadanya Panjang tetap diperolehi. Ini dilakukan untuk memastikan bahawa bilangan sampel negatif adalah mencukupi dan panjang dalam rangkaian pengekodan konteks adalah konsisten pada kadar bingkai yang berbeza, dengan itu memastikan kemantapan latihan.
  2. Topeng berterusan penyesuaian: Untuk mengurangkan kesan hingar data pada latihan, panjang topeng yang lebih kecil dipilih Dan setiap kawasan topeng dipaksa untuk berterusan, dan panjang audio yang sepadan dengan kawasan topeng adalah bersamaan pada kadar bingkai yang berbeza. Ini bukan sahaja mengurangkan kesukaran pembelajaran perbandingan di bawah data bising, tetapi juga menyesuaikan diri dengan kadar bingkai yang berbeza.

Selepas membandingkan kesan wav2vec2.0 (w2v) dan Efficient wav2vec (w2v-e) pada data perniagaan, keputusan yang ditunjukkan dalam jadual di bawah diperolehi (semua model adalah Latihan menggunakan 64 GPU V100):

Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan pengoptimuman algoritma + inovasi kejuruteraan Huoshan Voice

Anda boleh melihat bahawa wav2vec Efficient yang dipertingkatkan mempunyai peningkatan prestasi 5% yang stabil berbanding dengan wav2vec 2.0 asal, dan kecekapan latihan hampir dua kali ganda.

Pengoptimuman Kejuruteraan

Walaupun wav2vec Cekap yang dicadangkan oleh pasukan telah menggandakan kecekapan latihan hampir dua kali ganda daripada tahap algoritma, disebabkan volum komunikasi yang besar bagi model 300M, masih terdapat turun naik dalam latihan komunikasi dan kecekapan pengembangan berbilang mesin Rendah. Dalam hal ini, Pasukan Suara Enjin Gunung Berapi membuat kesimpulan: "Untuk meningkatkan kecekapan komunikasi model pra-latihan dalam senario kecerunan segerak, kami telah melengkapkan teknologi pengoptimuman komunikasi kumpulan Bucket pada bahagian belakang komunikasi berdasarkan rangka kerja latihan yang diedarkan BytePS, dan kecekapan selari data boleh dicapai 10% peningkatan pada masa yang sama, strategi penyusunan semula parameter adaptif (Penyusunan Semula Parameter) telah dilaksanakan untuk menangani masalah menunggu yang disebabkan oleh susunan definisi parameter model dan susunan kemas kini kecerunan yang berbeza >Berdasarkan pengoptimuman ini, penambahbaikan selanjutnya dibuat Digabungkan dengan pengumpulan kecerunan dan teknologi lain, kecekapan pengembangan satu kad model 300M meningkat daripada 55.42% kepada 81.83%, dan kecekapan pengembangan berbilang mesin meningkat daripada 60.54. % hingga 91.13%. Model yang pada asalnya mengambil masa 6.5 hari untuk dilatih kini boleh dilatih hanya dalam 4 hari , memakan masa dipendekkan sebanyak 40%.

Selain itu, untuk menyokong senario data besar model besar yang diterokai pada masa hadapan, pasukan suara Volcano Engine melengkapkan lagi siri model berskala ultra besar Pembinaan keupayaan Atom. Pertama, teknologi OSS tempatan telah dilaksanakan, yang menyelesaikan masalah kecekapan pengembangan antara mesin sambil mengalih keluar kebanyakan memori berlebihan yang diduduki oleh pengoptimum kemudiannya, baldi disokong untuk kecerunan segerak komunikasi Lazy init mengurangkan penggunaan memori video sebanyak dua kali ganda bilangan parameter, sangat mengurangkan nilai memori puncak dan menyesuaikan diri dengan senario model yang sangat besar di mana sumber memori video adalah padat akhirnya, berdasarkan selari data, selari model dan saluran paip disokong; dan dalam model 1B dan 10B Sokongan pengesahan dan penyesuaian selesai. Siri pengoptimuman ini meletakkan asas yang kukuh untuk latihan model besar dan data besar.

Pada masa ini, dengan mengguna pakai proses pelaksanaan ASR sumber rendah, dua bahasa sumber rendah telah berjaya melaksanakan sari kata video dan perkhidmatan keselamatan kandungan. Selain pengecaman pertuturan, model pra-latihan berdasarkan wav2vec2.0 juga telah mencapai keuntungan yang ketara dalam banyak tugas hiliran lain, termasuk pengesanan acara audio, pengecaman bahasa, pengesanan emosi, dsb., dan akan dilaksanakan secara beransur-ansur dalam keselamatan kandungan video , pengesyoran dan analisis pada masa hadapan , pemunggahan audio, analisis sentimen perkhidmatan pelanggan e-dagang dan perniagaan lain yang berkaitan. Pelaksanaan teknologi pra-latihan tanpa pengawasan akan mengurangkan kos pelabelan pelbagai jenis data audio dengan ketara, memendekkan kitaran pelabelan dan mencapai tindak balas pantas kepada keperluan perniagaan.

Ringkasan dan Tinjauan

Dalam amalannya, Volcano Engine telah meneroka satu set penyelesaian pelaksanaan ASR bahasa sumber rendah berdasarkan wav2vec2.0, yang menyelesaikan masalah Ia menyelesaikan masalah overhed penaakulan yang tinggi dan mencapai sambungan lancar dengan enjin hujung ke hujung. Untuk menangani masalah teras kecekapan latihan rendah dan ketidakstabilan wav2vec2.0, wav2vec yang cekap telah dicadangkan. Berbanding dengan wav2vec2.0, kesan pada tugas hiliran dipertingkatkan sebanyak 5%, dan masa pra-latihan dipendekkan separuh Digabungkan dengan pengoptimuman kejuruteraan, masa pra-latihan akhir dikurangkan sebanyak 70% berbanding dengan versi asal. Pada masa hadapan, Enjin Gunung Berapi akan terus meneroka dalam tiga arah berikut:

  1. Naik taraf algoritma tanpa seliaan: Selepas wav2vec 2.0, kerja penyelidikan mengenai pra-latihan tanpa pengawasan suara telah muncul dan pasukan akan meneruskan Menyusul penyelidikan terkini dan menghayatinya ke dalam senario perniagaan. Pada peringkat ini, kami terutamanya mencuba model tanpa pengawasan seperti HuBERT[2], MAE[6] dan data2vec[7] dan meneroka aplikasi hiliran masing-masing . Pada masa hadapan, prestasi model tanpa seliaan akan dipertingkatkan daripada dua aspek: mereka bentuk penyelesaian tanpa pengawasan yang cekap dan adaptif mengikut senario perniagaan yang berbeza mereka bentuk model tanpa seliaan umum untuk meningkatkan prestasi pelbagai tugas hiliran;
  2. Berbilang bahasa dan berbilang modal: Pada masa ini terdapat banyak kerja-kerja penyelidikan mengenai gabungan yang tidak diawasi dan berbilang bahasa, seperti XLSR[8]. Atas dasar ini, Volcano Engine mencadangkan S3Net[9], yang berkesan mengurangkan konflik antara bahasa yang berbeza dengan membahagikan berbilang sub-rangkaian jarang dalam model pra-latihan untuk memodelkan bahasa yang berbeza gangguan (Language Interference) mempunyai kesan peningkatan prestasi yang ketara pada bahasa korpus besar. Kerja penyelidikan sedia ada tertumpu terutamanya pada bahagian pengekod audio, dan model hujung-ke-hujung arus perdana semasa semuanya menggunakan struktur penyahkod-pengekod, iaitu, pemodelan pelbagai mod teks audio. Pasukan ini menentukan bahawa pra-latihan akhir audio tulen tidak lagi dapat memenuhi keperluan model hujung ke hujung Pada masa hadapan, ia akan meneroka pra-latihan berbilang mod teks audio, termasuk pemodelan bersama bagi tidak sejajar besar-besaran. teks audio dan model hujung ke hujung dan pralatihan multimodal tanpa pengawasan tulen.
  3. Model besar data besar: Prestasi model sedia ada hampir tepu pada skala 100,000 jam , pasukan itu menggunakan 1 juta jam data tidak berlabel untuk melakukan latihan NST[10] berdasarkan model yang dilatih dengan 100,000 jam data berlabel Cina, dan mencapai pengurangan CER relatif 7% pada set ujian am. Pada masa yang sama, model Keupayaan generalisasi telah dipertingkatkan dengan ketara, dan purata CER pada set ujian 20 domain telah menurun sebanyak 15%. Untuk menyerap sepenuhnya data berjuta-juta jam yang besar, model yang lebih besar diperlukan Pada masa ini, Enjin Volcano telah membuat kemajuan awal pada model dengan parameter 1B. Had prestasi model besar adalah tinggi, dan masalah yang datang dengannya ialah ia sukar untuk dilaksanakan. Untuk melaksanakan model besar ke dalam perniagaan sebenar, pelbagai kaedah pemampatan model akan dicuba pada masa hadapan, seperti penguraian matriks, pemotongan berat, penyulingan pengetahuan, dan lain-lain, untuk mencapai kesan pemampatan tanpa kerugian sebanyak mungkin.

Volcano Voice, teknologi suara termaju yang telah lama berkhidmat kepada pelbagai barisan perniagaan ByteDance dibuka melalui enjin Volcano, menyediakan keupayaan teknologi suara AI yang terkemuka dalam industri dan penuh cemerlang. -produk suara timbunan Penyelesaian termasuk pemahaman audio, sintesis audio, manusia digital maya, interaksi perbualan, pengambilan muzik, perkakasan pintar, dsb. Pada masa ini, pengecaman pertuturan dan sintesis pertuturan Volcano Engine merangkumi pelbagai bahasa dan dialek telah dipilih ke dalam pelbagai persidangan AI terkemuka, menyediakan keupayaan suara terkemuka untuk Douyin, Jianying, Feishu, Novel Tomato, Pico dan perniagaan lain sesuai untuk pelbagai senario seperti video pendek, siaran langsung, penciptaan video, pejabat dan peranti boleh pakai.

Rujukan

[1] Baevski, A., Zhou, Y., Mohamed, A. and Auli, M . , 2020. wav2vec 2.0: Rangka kerja untuk pembelajaran penyeliaan sendiri bagi perwakilan pertuturan Kemajuan dalam Sistem Pemprosesan Maklumat Neural, 33, ms.12449-12460.

. [2] Hsu, W.N., Bolte, B., Tsai, Y.H.H., Lakhotia, K., Salakhutdinov, R. dan Mohamed, A., 2021. Hubert: Pembelajaran perwakilan pertuturan diselia sendiri oleh ramalan bertopeng IEEE /. Transaksi ACM pada Pemprosesan Audio, Pertuturan dan Bahasa, 29, ms.3451-3460.

[3] Graves, A., Fernández, S. , Gomez, F. dan Schmidhuber, J., 2006, klasifikasi temporal Connectionist: melabelkan data jujukan tidak bersegmen dengan rangkaian saraf berulang Dalam Prosiding persidangan antarabangsa ke-23 tentang Pembelajaran Mesin (ms. 369-376).

[4] Chan, W., Jaitly, N., Le, Q. dan Vinyals, O., 2016, Mac Dengar, hadir dan eja: Rangkaian saraf untuk pengecaman pertuturan perbendaharaan kata yang besar Pada persidangan antarabangsa IEEE pada akustik, pertuturan dan pemprosesan isyarat (ICASSP) (ms. 4960-4964.).

[5] Graves, A., 2012. Transduksi jujukan dengan rangkaian saraf berulang. pracetak arXiv arXiv:1211.3711.

[6] He, K., Chen, X., Xie, S., Li, Y., Dollár, P . dan Girshick, R., 2022. Pengekod auto bertopeng ialah pelajar penglihatan berskala. Dalam Prosiding Persidangan IEEE/CVF mengenai Penglihatan Komputer dan Pengecaman Corak (ms. 16000-16009).

[7] Baevski, A., Hsu, W.N., Xu, Q., Babu, A., Gu, J. and Auli, M., 2022. Data2vec: Rangka kerja umum untuk pembelajaran penyeliaan kendiri dalam pertuturan, penglihatan dan bahasa. pracetak arXiv arXiv:2202.03555.

[8] Conneau, A., Baevski, A., Collobert, R., Mohamed, A. dan Auli, M ., 2020. Pembelajaran perwakilan silang bahasa tanpa pengawasan untuk pengecaman pertuturan. pracetak arXiv arXiv:2006.13979.

[9] Lu, Y., Huang, M., Qu, X., Wei, P. dan Ma, Z ., 2022, Mei. Pembelajaran perwakilan pertuturan silang bahasa adaptif bahasa dengan perkongsian sub-rangkaian yang jarang. Dalam ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (ms. 6882-6886). IEEE.

[10] Park, D.S., Zhang, Y., Jia, Y., Han, W., Chiu, C.C., Li, B. , Wu, Y. dan Le, Q.V., 2020. Latihan pelajar bising yang dipertingkatkan untuk pengecaman pertuturan automatik. pracetak arXiv arXiv:2005.09629.

Atas ialah kandungan terperinci Penerokaan mendalam tentang pelaksanaan teknologi pra-latihan tanpa pengawasan dan 'pengoptimuman algoritma + inovasi kejuruteraan' Huoshan Voice. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型字节跳动豆包大模型发布,火山引擎全栈 AI 服务助力企业智能化转型Jun 05, 2024 pm 07:59 PM

火山引擎总裁谭待企业要做好大模型落地,面临模型效果、推理成本、落地难度的三大关键挑战:既要有好的基础大模型做支撑,解决复杂难题,也要有低成本的推理服务让大模型被广泛应用,还要更多工具、平台和应用帮助企业做好场景落地。——谭待火山引擎总裁01.豆包大模型首次亮相大使用量打磨好模型模型效果是AI落地最关键的挑战。谭待指出,只有大的使用量,才能打磨出好模型。目前,豆包大模型日均处理1,200亿tokens文本、生成3,000万张图片。为助力企业做好大模型场景落地,字节跳动自主研发的豆包大模型将通过火山

营销效果大幅提升,AIGC视频创作就该这么用营销效果大幅提升,AIGC视频创作就该这么用Jun 25, 2024 am 12:01 AM

经过一年多的发展,AIGC已经从文字对话、图片生成逐步向视频生成迈进。回想四个月前,Sora的诞生让视频生成赛道经历了一场洗牌,大力推动了AIGC在视频创作领域的应用范围和深度。在人人都在谈论大模型的时代,我们一方面惊讶于视频生成带来的视觉震撼,另一方面又面临着落地难问题。诚然,大模型从技术研发到应用实践还处于一个磨合期,仍需结合实际业务场景进行调优,但理想与现实的距离正在被逐步缩小。营销作为人工智能技术的重要落地场景,成为了很多企业及从业者想要突破的方向。掌握了恰当方法,营销视频的创作过程就会

火山语音TTS技术实力获国检中心认证 MOS评分高达4.64火山语音TTS技术实力获国检中心认证 MOS评分高达4.64Apr 12, 2023 am 10:40 AM

日前,火山引擎语音合成产品获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音合成增强级检验检测证书,在语音合成的基本要求以及扩展要求上已达AI国检中心的最高等级标准。本次评测从中文普通话、多方言、多语种、混合语种、多音色、个性化等维度进行评测,产品的技术支持团队-火山语音团队提供了丰富的音库,经评测其音色MOS评分最高可达4.64分,处行业领先水平。作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI 国检中心一直致力于推动智能

主打个性化体验,留住用户全靠AIGC?主打个性化体验,留住用户全靠AIGC?Jul 15, 2024 pm 06:48 PM

1.购买商品前,消费者会在社交媒体上搜索并浏览商品评价。因此,企业在社交平台上针对产品进行营销变得越来越重要。营销的目的是为了:促进产品的销售树立品牌形象提高品牌认知度吸引并留住客户最终提高企业的盈利能力大模型具备出色的理解和生成能力,可以通过浏览和分析用户数据为用户提供个性化内容推荐。《AIGC体验派》第四期中,两位嘉宾将深入探讨AIGC技术在提升「营销转化率」方面发挥的作用。直播时间:7月10日19:00-19:45直播主题:留住用户,AIGC如何通过个性化提升转化率?第四期节目邀请到两位重

深探无监督预训练技术落地 火山语音“算法优化+工程革新”并举深探无监督预训练技术落地 火山语音“算法优化+工程革新”并举Apr 08, 2023 pm 12:44 PM

长期以来,火山引擎为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案。简单来说,就是通过AI技术自动将视频中的语音和歌词转化成文字,辅助视频创作的功能。但伴随平台用户的快速增长以及对语言种类更加丰富多样的要求,传统采用的有监督学习技术日渐触及瓶颈,这让团队着实犯了难。众所周知,传统的有监督学习会对人工标注的有监督数据产生严重依赖,尤其在大语种的持续优化以及小语种的冷启动方面。以中文普通话和英语这样的大语种为例,尽管视频平台提供了充足的业务场景语音数据,但有监督数据达到一定规模之后,继

全抖音都在说家乡话,两项关键技术助你“听懂”各地方言全抖音都在说家乡话,两项关键技术助你“听懂”各地方言Oct 12, 2023 pm 08:13 PM

国庆期间,抖音上“一句方言证明你是地道家乡人”的活动在吸引了全国各地的网友热情参与,话题最高登上抖音挑战榜第一位,播放量已超过5000万。这场“各地方言大赏”能够在网络上迅速走红,离不开抖音新推出的地方方言自动翻译功能的功劳。创作者们在录制家乡话的短视频时,使用了“自动字幕”功能,并选择了“转为普通话字幕”,这样就能够自动识别视频中的方言语音,并将方言内容转化为普通话字幕,让其他地区的网友也能轻松听懂各种“加密型国语”。福建的网友亲自测试后表示,就连“十里不同音”的闽南地区是中国福建省的一个地域

火山引擎和伊利合作举办的“健康+AI”生态创新大赛成功结束火山引擎和伊利合作举办的“健康+AI”生态创新大赛成功结束Jan 13, 2024 am 11:57 AM

健康+AI=?中老年脑健康营养解决方案、数智化营养健康服务、AIGC大健康社区方案……随着“健康+AI”生态创新大赛的展开,一个个蕴含技术能量、赋能健康产业的创新方案呼之欲出,“健康+AI=?”的答案正在慢慢浮现。12月26日,伊利集团与火山引擎联合主办的“健康+AI”生态创新大赛圆满收官,上海博斯腾网络科技有限公司、中科苏州智能计算技术研究院等6家优胜企业脱颖而出。在历时一个多月的角逐中,伊利携手优秀科创企业共同探索AI技术与健康产业的深度融合,将大赛期待值持续拉满。“健康+AI”生态创新大赛

火山引擎自研视频编解码芯片今日正式发布,压缩效率相比行业主流提升 30% 以上火山引擎自研视频编解码芯片今日正式发布,压缩效率相比行业主流提升 30% 以上Aug 24, 2023 pm 07:53 PM

本站8月22日消息,据火山引擎官方消息,火山引擎视频云宣布其自研的视频编解码芯片已成功出片,今日正式发布。官方表示,该芯片的视频压缩效率相比“行业主流硬件编码器”可提升30%以上,未来将服务于抖音、西瓜视频等视频业务,并将通过火山引擎视频云开放给企业客户。据悉,火山引擎基于抖音等视频业务的大规模实践和打磨,将自研的视频编解码技术融入到专用芯片中,压缩效率相比行业主流硬件编码器提升30%以上,可应用于视频点播、直播、图像压缩、XR等业务场景。▲图源火山引擎第三方数据显示,中国用户量排名TOP100

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini