Rumah > Artikel > Peranti teknologi > Perakam Google melaksanakan anotasi pembesar suara automatik, dan fungsinya serta memo suara iOS sekali lagi diperluaskan
Pada 2019, Google melancarkan Perakam perisian rakaman di bawah sistem Android untuk telefon mudah alih Pixelnya, yang setanding dengan memo suara di bawah iOS dan menyokong rakaman, pengurusan dan penyuntingan fail audio. Sejak itu, Google telah berturut-turut menambahkan sejumlah besar ciri berasaskan pembelajaran mesin pada Perakam, termasuk pengecaman pertuturan, pengesanan acara audio, penjanaan tajuk automatik dan penyemakan imbas pintar.
Namun, apabila fail rakaman panjang dan mengandungi berbilang pembesar suara, sesetengah pengguna Perakam akan berasa tidak selesa semasa digunakan. Kerana teks yang diperoleh melalui pengecaman pertuturan sahaja tidak dapat menentukan siapa yang mengatakan setiap ayat. Pada persidangan Made By Google tahun ini, Google mengumumkan ciri anotasi pembesar suara automatik apl Perakam. Ciri ini akan menambah teg pembesar suara tanpa nama (seperti "Speaker 1" atau "Speaker 2") kepada teks yang dikenali pertuturan dalam masa nyata. Ciri ini akan meningkatkan kebolehbacaan dan kepraktisan teks yang dirakam. Teknologi di sebalik ciri ini dipanggil diarisasi pembesar suara. Google mula-mula memperkenalkan sistem pembahagian cap suara dan pengelompokan yang dipanggil Turn-to-Diarize pada persidangan ICASSP 2022.
Kiri: Merakam teks dengan anotasi pembesar suara dimatikan. Kanan: Teks rakaman dengan anotasi pembesar suara dihidupkan.
Sistem Turn-to-Diarize Google mengandungi berbilang model dan algoritma yang sangat dioptimumkan untuk melaksanakan peranti mudah alih Di Internet, real- pembahagian cap suara masa dan pemprosesan pengelompokan audio berjam-jam dilengkapkan dengan sumber pengkomputeran yang sangat sedikit. Sistem ini terutamanya terdiri daripada tiga komponen: model pengesanan pensuisan pembesar suara untuk mengesan pensuisan identiti pembesar suara, model pengekod cap suara untuk mengekstrak ciri suara setiap pembesar suara dan sistem berbilang peringkat yang boleh melengkapkan anotasi pembesar suara dengan cekap. Semua komponen berjalan sepenuhnya pada peranti pengguna dan tidak bergantung pada sebarang sambungan pelayan.
Gambar rajah seni bina sistem Turn-to-Diarize.
Komponen pertama sistem ialah model pengesanan suis pembesar suara berdasarkan Transformer Transducer (T-T) . Model ini mampu menukar jujukan ciri akustik kepada jujukan teks yang mengandungi aksara khas . Watak khas menunjukkan peristiwa peralihan pembesar suara. Makalah sebelumnya yang diterbitkan oleh Google menggunakan aksara khas seperti atau untuk mewakili identiti pembesar suara tertentu. Dalam sistem terkini, kerana watak tidak terhad kepada identiti tertentu, aplikasinya juga lebih meluas.
Untuk kebanyakan aplikasi, output sistem pengecaman dan pengelompokan cap suara biasanya tidak dibentangkan terus kepada pengguna, tetapi digabungkan dengan output model pengecaman pertuturan. Memandangkan model pengecaman pertuturan telah dioptimumkan untuk kadar ralat perkataan semasa proses latihan, model pengesanan suis pembesar suara lebih bertolak ansur dengan kadar ralat perkataan, tetapi memberi lebih perhatian kepada ketepatan aksara khas . Atas dasar ini, Google mencadangkan fungsi kehilangan berasaskan aksara baharu, yang membolehkan pengesanan tepat peristiwa penukaran pembesar suara dengan hanya model yang lebih kecil.
Selepas isyarat audio dibahagikan mengikut peristiwa penukaran pembesar suara, sistem mengekstrak ciri setiap segmen pembesar suara melalui model pengekod cap suara kod maklumat cap suara, iaitu, d-vector. Dalam kertas kerja terdahulu yang diterbitkan oleh Google, kod pembenaman cap suara biasanya diekstrak daripada audio panjang tetap. Sebagai perbandingan, sistem baru ini mempunyai beberapa penambahbaikan. Pertama, sistem baharu mengelak daripada mengekstrak benam cap suara daripada segmen yang mengandungi berbilang maklumat pembesar suara, sekali gus meningkatkan kualiti keseluruhan benam. Kedua, serpihan pertuturan yang sepadan dengan setiap kod pembenaman cap suara agak panjang, jadi ia mengandungi lebih banyak maklumat cap suara yang sepadan dengan pembesar suara. Akhir sekali, jujukan kod pembenaman cap suara terakhir yang diperoleh melalui kaedah ini adalah lebih pendek panjangnya, menjadikan algoritma pengelompokan berikutnya kurang mahal dari segi pengiraan.
Langkah terakhir pembahagian dan pengelompokan cap suara ialah mengelompokkan jujukan kod pembenaman cap suara yang diperoleh dalam langkah sebelumnya. Memandangkan rakaman yang dijana oleh pengguna menggunakan apl Perakam boleh berjulat dari hanya beberapa saat hingga 18 jam, cabaran utama untuk algoritma pengelompokan ialah dapat mengendalikan jujukan pembenaman cap suara dengan panjang yang berbeza-beza.
Untuk tujuan ini, strategi pengelompokan berbilang peringkat Google dengan bijak menggabungkan kelebihan beberapa algoritma pengelompokan yang berbeza. Untuk urutan yang lebih pendek, strategi menggunakan pengelompokan hierarki agregat (AHC). Untuk urutan panjang sederhana, kaedah ini menggunakan pengelompokan spektrum dan menggunakan kaedah margin maksimum nilai eigen untuk menganggarkan bilangan pembesar suara dengan tepat. Untuk jujukan yang lebih panjang, kaedah ini mula-mula menggunakan pengelompokan hierarki agregat untuk memproses awal jujukan, dan kemudian memanggil pengelompokan spektrum, dengan itu mengurangkan kos pengiraan langkah pengelompokan. Semasa keseluruhan proses pemprosesan penstriman, dengan menyimpan cache secara dinamik dan menggunakan semula hasil pengelompokan sebelumnya, had atas kerumitan masa dan kerumitan ruang bagi setiap panggilan algoritma pengelompokan boleh ditetapkan kepada pemalar.
Strategi pengelompokan berbilang peringkat ialah pengoptimuman utama untuk aplikasi sisi peranti. Kerana pada bahagian peranti, sumber seperti CPU, memori dan bateri biasanya terhad. Strategi ini masih boleh beroperasi dalam keadaan kuasa rendah walaupun selepas memproses audio selama beberapa jam. Had atas kerumitan berterusan strategi ini biasanya boleh dilaraskan mengikut model peranti tertentu untuk mencapai keseimbangan antara ketepatan dan prestasi.
Gambar rajah skematik strategi pengelompokan berbilang peringkat.
Oleh kerana Turn-to-Diarize ialah sistem pemprosesan penstriman masa nyata, kemas kini akan dikemas kini apabila model diproses Dengan lebih banyak audio, label pembesar suara yang diramalkan akan menjadi lebih tepat. Untuk tujuan ini, aplikasi Perakam akan terus membetulkan label pembesar suara yang diramalkan sebelum ini semasa proses rakaman pengguna untuk memastikan bahawa label pembesar suara yang pengguna lihat pada skrin semasa sentiasa label yang lebih tepat.
Pada masa yang sama, antara muka pengguna aplikasi Perakam juga membenarkan pengguna menamakan semula label pembesar suara dalam setiap rakaman, contohnya, menamakan semula "Speaker 2" kepada "Peniaga Kereta" " Perniagaan", sekali gus memudahkan pengguna membaca dan mengingati.
Perakam membenarkan pengguna menamakan semula tag pembesar suara untuk meningkatkan kebolehbacaan.
Google telah melancarkan cip Google Tensor yang dibangunkan sendiri pada beberapa telefon Pixel terbaharu. Sistem pembahagian dan pengelompokan cap suara semasa kebanyakannya dijalankan pada modul CPU Google Tensor. Pada masa hadapan, Google merancang untuk menjalankan sistem pembahagian cap suara dan pengelompokan pada modul TPU Google Tensor untuk mengurangkan lagi penggunaan tenaga. Selain itu, Google juga berharap untuk mengembangkan ciri ini kepada bahasa lain selain bahasa Inggeris dengan bantuan pengekod cap suara berbilang bahasa dan model pengecaman pertuturan.
Atas ialah kandungan terperinci Perakam Google melaksanakan anotasi pembesar suara automatik, dan fungsinya serta memo suara iOS sekali lagi diperluaskan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!