cari
RumahPeranti teknologiAIGoogle AudioPaLM melaksanakan penyelesaian dwi-modal 'teks + audio', model besar untuk bercakap dan mendengar

Model bahasa berskala besar, dengan prestasi hebat dan serba boleh, telah memacu pembangunan beberapa model besar berbilang modal, seperti audio, video, dsb.

Seni bina asas model bahasa kebanyakannya berdasarkan Transformer dan terutamanya penyahkod, jadi seni bina model boleh disesuaikan dengan modaliti jujukan lain tanpa terlalu banyak pelarasan.

Baru-baru ini, Google mengeluarkan model teks pertuturan bersatu AudioPaLM, yang menggabungkan teks dan token audio ke dalam perbendaharaan kata gabungan pelbagai mod, dan menggabungkannya dengan teg perihalan tugas yang berbeza untuk mencapai sebarang campuran pertuturan dan teks. hanya model pada tugasan, termasuk pengecaman pertuturan (ASR), sintesis teks ke pertuturan, terjemahan pertuturan automatik (AST), dan terjemahan pertuturan ke pertuturan (S2ST), dsb., menyatukan tugas yang secara tradisinya diselesaikan oleh model heterogen menjadi satu seni bina dan proses latihan. . /

Google AudioPaLM melaksanakan penyelesaian dwi-modal teks + audio, model besar untuk bercakap dan mendengar Di samping itu, memandangkan seni bina asas AudioPaLM ialah model Transformer yang besar, yang boleh dimulakan dengan pemberat model bahasa besar yang dipralatih pada teks, ia boleh mendapat manfaat daripada pengetahuan linguistik model seperti PaLM .

Dari perspektif hasil pelaksanaan, AudioPaLM telah mencapai hasil terkini pada penanda aras AST dan S2ST, dan prestasinya pada penanda aras ASR adalah setanding dengan model lain.

Dengan memanfaatkan isyarat audio AudioLM, model AudioPaLM mampu melaksanakan S2ST pada pemindahan pertuturan pembesar suara baharu, mengatasi kaedah sedia ada dari segi kualiti pertuturan dan pemeliharaan pertuturan.

Model AudioPaLM juga mempunyai keupayaan tangkapan sifar untuk melaksanakan tugas AST pada kombinasi input pertuturan/bahasa sasaran yang tidak dilihat dalam latihan.

AudioPaLM

Para penyelidik menggunakan model Transformer penyahkod sahaja untuk memodelkan teks dan token pertuturan Teks dan audio telah dibahagikan sebelum dimasukkan ke dalam model, jadi input hanyalah jujukan integer, dan pada bahagian. tamat keluaran Kemudian lakukan operasi yang dinyahtokkan dan kembalikan kepada pengguna.

Pictures

udio embedding dan segmentation perkataan

Google AudioPaLM melaksanakan penyelesaian dwi-modal teks + audio, model besar untuk bercakap dan mendengar Proses menukarkan bentuk gelombang audio asal menjadi token termasuk mengekstrak embeddings dari model perwakilan ucapan yang ada, dan membezakan embeddings ke dalam set terhad token audio

Dalam kerja terdahulu, embeddings telah diekstrak daripada model w2v-BERT dan dikuantisasi dengan k-means Dalam kertas kerja ini, penyelidik telah mencuba tiga skema: w2v-BERT: Gunakan w2v-BERT. -Model BERT dilatih pada data berbilang bahasa dan bukannya bahasa Inggeris tulen dan tiada pemprosesan normalisasi dilakukan sebelum pengelompokan k-means, jika tidak, ia akan menyebabkan persekitaran berbilang bahasa merosot prestasi sederhana. Kemudian jana token pada kadar 25Hz dengan saiz perbendaharaan kata 1024

USM-v1: Lakukan operasi serupa menggunakan pengekod 2 bilion parameter Universal Speech Model (USM) yang lebih berkuasa dan ekstrak benam dari lapisan tengah ;

USM-v2: Dilatih dengan kehilangan ASR tambahan dan diperhalusi untuk menyokong berbilang bahasa.

Ubah suai penyahkod teks sahaja

Dalam struktur penyahkod Transfomrer, kecuali untuk input dan lapisan keluaran softmax terakhir, bilangan token pemodelan tidak terlibat, dan dalam seni bina PaLM pembolehubah berat matriks input dan output dikongsi, iaitu, ia adalah transpose antara satu sama lain.

Jadi anda hanya perlu mengembangkan saiz matriks benam daripada (t × m) kepada (t+a) ×m untuk menukar model teks tulen kepada model yang boleh mensimulasikan kedua-dua teks dan audio, dengan t ialah saiz perbendaharaan kata teks, a ialah saiz perbendaharaan kata audio, dan m ialah dimensi benam. Untuk memanfaatkan model teks pra-latihan, para penyelidik menukar pusat pemeriksaan model sedia ada dengan menambah baris baharu pada matriks benam.

Pelaksanaan khusus ialah token t pertama sepadan dengan teg teks SentencePiece, dan token berikut mewakili teg audio Walaupun pembenaman teks menggunakan semula pemberat yang telah dilatih, pembenaman audio baru dimulakan dan mesti dimulakan. terlatih.

Hasil eksperimen menunjukkan bahawa berbanding dengan latihan semula dari awal, model pra-latihan berasaskan teks sangat berfaedah untuk meningkatkan prestasi tugasan berbilang modal pertuturan dan teks.

Penyahkodan token audio ke dalam audio asli

Untuk mensintesis bentuk gelombang audio daripada token audio, penyelidik mencuba dua kaedah berbeza:

penyahkodan Audio.

yang serupa

2. Penyahkodan bukan autoregresif serupa dengan model SoundStorm

Kedua-dua kaedah perlu menjana token SoundStream terlebih dahulu, dan kemudian menggunakan penyahkod konvolusi untuk menukarnya kepada bentuk gelombang audio.

Para penyelidik dilatih tentang Multilingual LibriSpeech Keadaan pertuturan ialah sampel pertuturan sepanjang 3 saat, dinyatakan sebagai token audio dan token SoundStream

Dengan menyediakan sebahagian daripada ucapan input asal sebagai keadaan pertuturan, model. boleh bercakap Apabila pertuturan manusia diterjemahkan ke dalam bahasa yang berbeza, pertuturan pembesar suara asal dikekalkan Apabila audio asal lebih pendek daripada 3 saat, masa kosong diisi dengan main semula berulang.

Tugas latihan

Set data latihan yang digunakan ialah semua data teks pertuturan:

1. T.2ran Audio: T.2ran Audio: T.2ran Audio: T.2 ranskripsi pertuturan dalam data audio

3. Terjemahan Audio Terjemahan Audio: Terjemahan pertuturan dalam audio

4. Transkrip Terjemahan: Terjemahan bertulis dalam audio

termasuk: ...tugasan komponen terjemahan): Terjemah audio untuk mendapatkan audio yang diterjemahkan

4. TTS (Teks ke Ucapan): Baca kandungan yang ditranskripsi untuk mendapatkan audio. . model harus berprestasi untuk input yang diberikan ditentukan dengan menambahkan label sebelum input, menyatakan tugas dan nama bahasa Inggeris bahasa input Bahasa output juga boleh dipilih.

Sebagai contoh, apabila anda mahu model melaksanakan ASR pada korpus Perancis, anda perlu menambah label [ASR French] di hadapan input audio selepas pembahagian perkataan untuk melaksanakan tugasan TTS dalam bahasa Inggeris, anda perlu menambah [TTS English] di hadapan teks; Untuk melaksanakan tugasan S2ST daripada bahasa Inggeris ke bahasa Perancis, audio bahasa Inggeris yang dibahagikan akan didahului oleh [S2ST English French]

Training Mix

perpustakaan SeqIO untuk mencampurkan data latihan Set data yang lebih besar mengalami pengurangan berat. .

Selain menilai kualiti terjemahan kandungan pertuturan, penyelidik juga menilai sama ada kualiti bahasa yang dijana oleh AudioPaLM adalah cukup tinggi dan sama ada suara pembesar suara dikekalkan apabila diterjemahkan ke dalam bahasa yang berbeza.

Metrik Objektif

Menggunakan sesuatu yang serupa dengan penganggar MOS tanpa rujukan, diberikan sampel audio, memberikan anggaran kualiti audio yang dirasakan pada skala dari 1 hingga 5. Untuk mengukur kualiti pemindahan pertuturan merentas bahasa, penyelidik menggunakan model pengesahan pembesar suara di luar rak dan mengira persamaan kosinus antara sumber (dikodkan/dikodkan dengan SoundStream) dan benam pertuturan yang diterjemahkan juga diukur pembenaman daripada ciri Akustik audio sumber kepada audio sasaran (keadaan rakaman, bunyi latar belakang).

Penilaian Subjektif

Para penyelidik menjalankan dua kajian bebas untuk menilai kualiti suara dan persamaan suara yang dihasilkan, menggunakan set sampel yang sama dalam kedua-dua kajian.

Disebabkan kualiti korpus yang tidak sekata, sesetengahnya mengandungi pertuturan bertindih yang kuat (contohnya, rancangan TV atau lagu yang dimainkan di latar belakang) atau bunyi yang sangat kuat (contohnya, pakaian bergesel dengan mikrofon yang dihasilkan oleh kesan herotan yang serupa). manusia Tugas penilai adalah rumit, jadi para penyelidik memutuskan untuk melakukan pra-penapis dengan memilih hanya input dengan anggaran MOS sekurang-kurangnya 3.0.

Penilaian disediakan pada skala 5 mata, daripada 1 (kualiti buruk atau bunyi berbeza sama sekali) hingga 5 (kualiti baik, bunyi yang sama).

Google AudioPaLM melaksanakan penyelesaian dwi-modal teks + audio, model besar untuk bercakap dan mendengarGambar

Ia boleh diperhatikan daripada keputusan bahawa AudioPaLM dengan ketara mengatasi sistem asas Translatotron 2 dari segi kualiti audio dan persamaan pertuturan dalam kedua-dua ukuran objektif dan subjektif, dan AudioPaLM adalah lebih baik daripada yang sebenar dalam Rakaman sintetik CVSS-T mempunyai kualiti yang lebih tinggi dan persamaan suara yang lebih baik, dan dipertingkatkan dengan ketara dalam kebanyakan penunjuk.

Para penyelidik juga membandingkan sistem dalam kumpulan sumber tinggi dan rendah (Perancis, Jerman, Sepanyol dan Catalan berbanding bahasa lain) dan mendapati tiada perbezaan ketara dalam metrik antara kumpulan ini.

Atas ialah kandungan terperinci Google AudioPaLM melaksanakan penyelesaian dwi-modal 'teks + audio', model besar untuk bercakap dan mendengar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Indeks Trend Kerja Microsoft 2025 menunjukkan ketegangan kapasiti tempat kerjaIndeks Trend Kerja Microsoft 2025 menunjukkan ketegangan kapasiti tempat kerjaApr 24, 2025 am 11:19 AM

Krisis kapasiti yang semakin meningkat di tempat kerja, yang diburukkan lagi oleh integrasi AI yang pesat, menuntut peralihan strategik melebihi pelarasan tambahan. Ini ditegaskan oleh penemuan WTI: 68% pekerja berjuang dengan beban kerja, yang membawa kepada bursa

Bolehkah AI faham? Hujah bilik Cina mengatakan tidak, tetapi adakah betul?Bolehkah AI faham? Hujah bilik Cina mengatakan tidak, tetapi adakah betul?Apr 24, 2025 am 11:18 AM

Hujah Bilik Cina John Searle: Cabaran untuk Memahami AI Percubaan pemikiran Searle secara langsung mempersoalkan sama ada kecerdasan buatan benar -benar dapat memahami bahasa atau mempunyai kesedaran yang benar. Bayangkan seseorang, jahil dari Chines

Pembantu AI yang 'pintar' China Echo Microsoft Recall Kekurangan PrivasiPembantu AI yang 'pintar' China Echo Microsoft Recall Kekurangan PrivasiApr 24, 2025 am 11:17 AM

Gergasi teknologi China mencatatkan kursus yang berbeza dalam pembangunan AI berbanding dengan rakan -rakan Barat mereka. Daripada memberi tumpuan semata-mata kepada penanda aras teknikal dan integrasi API, mereka mengutamakan "pembantu skrin" AI-AI T-

Docker membawa aliran kerja kontena yang biasa ke model AI dan alat MCPDocker membawa aliran kerja kontena yang biasa ke model AI dan alat MCPApr 24, 2025 am 11:16 AM

MCP: Memperkasakan Sistem AI untuk mengakses alat luaran Protokol Konteks Model (MCP) membolehkan aplikasi AI berinteraksi dengan alat luaran dan sumber data melalui antara muka yang diseragamkan. Dibangunkan oleh antropik dan disokong oleh penyedia AI utama, MCP membolehkan model bahasa dan ejen untuk menemui alat yang ada dan memanggilnya dengan parameter yang sesuai. Walau bagaimanapun, terdapat beberapa cabaran dalam melaksanakan pelayan MCP, termasuk konflik alam sekitar, kelemahan keselamatan, dan tingkah laku silang platform yang tidak konsisten. Artikel Forbes "Protokol Konteks Model Anthropic adalah langkah besar dalam pembangunan ejen AI" Pengarang: Janakiram MsvDocker menyelesaikan masalah ini melalui kontena. Doc dibina di Infrastruktur Hab Docker

Menggunakan strategi pintar 6 AI Street untuk membina permulaan bilion dolarMenggunakan strategi pintar 6 AI Street untuk membina permulaan bilion dolarApr 24, 2025 am 11:15 AM

Enam strategi yang digunakan oleh usahawan berwawasan yang memanfaatkan teknologi canggih dan kecerdasan perniagaan yang cerdik untuk mewujudkan syarikat yang sangat menguntungkan dan berskala sambil mengekalkan kawalan. Panduan ini adalah untuk usahawan yang bercita -cita untuk membina a

Kemas kini foto Google membuka kunci Ultra HDR yang menakjubkan untuk semua gambar andaKemas kini foto Google membuka kunci Ultra HDR yang menakjubkan untuk semua gambar andaApr 24, 2025 am 11:14 AM

Alat Ultra HDR baru Google Photos: Pengubah Permainan untuk Peningkatan Imej Foto Google telah memperkenalkan alat penukaran Ultra HDR yang kuat, mengubah gambar standard menjadi imej jarak jauh yang tinggi. Peningkatan ini memberi manfaat kepada jurugambar a

Descope Membina Rangka Kerja Pengesahan untuk Integrasi Agen AIDescope Membina Rangka Kerja Pengesahan untuk Integrasi Agen AIApr 24, 2025 am 11:13 AM

Senibina teknikal menyelesaikan cabaran pengesahan yang muncul Hub Identiti Agentik menangani masalah banyak organisasi yang hanya ditemui selepas permulaan pelaksanaan ejen AI bahawa kaedah pengesahan tradisional tidak direka untuk mesin-

Google Cloud Seterusnya 2025 dan masa depan kerja moden yang bersambungGoogle Cloud Seterusnya 2025 dan masa depan kerja moden yang bersambungApr 24, 2025 am 11:12 AM

(Nota: Google adalah pelanggan penasihat firma saya, Moor Insights & Strategy.) AI: Dari Eksperimen ke Yayasan Enterprise Google Cloud Next 2025 mempamerkan evolusi AI dari ciri eksperimen ke komponen teras teknologi perusahaan, aliran

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

MantisBT

MantisBT

Mantis ialah alat pengesan kecacatan berasaskan web yang mudah digunakan yang direka untuk membantu dalam pengesanan kecacatan produk. Ia memerlukan PHP, MySQL dan pelayan web. Lihat perkhidmatan demo dan pengehosan kami.

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

mPDF

mPDF

mPDF ialah perpustakaan PHP yang boleh menjana fail PDF daripada HTML yang dikodkan UTF-8. Pengarang asal, Ian Back, menulis mPDF untuk mengeluarkan fail PDF "dengan cepat" dari tapak webnya dan mengendalikan bahasa yang berbeza. Ia lebih perlahan dan menghasilkan fail yang lebih besar apabila menggunakan fon Unicode daripada skrip asal seperti HTML2FPDF, tetapi menyokong gaya CSS dsb. dan mempunyai banyak peningkatan. Menyokong hampir semua bahasa, termasuk RTL (Arab dan Ibrani) dan CJK (Cina, Jepun dan Korea). Menyokong elemen peringkat blok bersarang (seperti P, DIV),