suchen
HeimTechnologie-PeripheriegeräteKIGoogle AudioPaLM implementiert die dualmodale Lösung „Text + Audio', ein großes Modell für Sprechen und Hören

Groß angelegte Sprachmodelle haben mit ihrer leistungsstarken Leistung und Vielseitigkeit die Entwicklung einer Reihe multimodaler großer Modelle wie Audio, Video usw. vorangetrieben.

Die zugrunde liegende Architektur des Sprachmodells basiert größtenteils auf Transformer und hauptsächlich auf Decoder, sodass die Modellarchitektur ohne große Anpassungen an andere Sequenzmodalitäten angepasst werden kann.

Kürzlich hat Google ein einheitliches Sprachtextmodell AudioPaLM veröffentlicht, das Text- und Audio-Tokens zu einem multimodalen gemeinsamen Vokabular zusammenführt und es mit verschiedenen Aufgabenbeschreibungs-Tags kombiniert, um eine beliebige Mischung aus Sprache und Text zu erreichen. Nur Modelle für Aufgaben, einschließlich Spracherkennung (ASR), Text-zu-Sprache-Synthese, automatische Sprachübersetzung (AST) und Sprache-zu-Sprache-Übersetzung (S2ST) usw., wodurch Aufgaben, die traditionell von heterogenen Modellen gelöst werden, in einer Architektur vereint werden und Ausbildungsprozess.

Google AudioPaLM implementiert die dualmodale Lösung „Text + Audio, ein großes Modell für Sprechen und HörenBilder

Papierlink: https://arxiv.org/pdf/2306.12925.pdf

Beispiellink: https://google-research.github.io/seanet/audiopalm/examples /

Da die zugrunde liegende Architektur von AudioPaLM außerdem ein großes Transformer-Modell ist, das mit den Gewichten eines großen Sprachmodells initialisiert werden kann, das vorab auf Text trainiert wurde, kann es vom linguistischen Wissen von Modellen wie PaLM profitieren .

Aus der Perspektive der Implementierungsergebnisse hat AudioPaLM bei den AST- und S2ST-Benchmarks Ergebnisse auf dem neuesten Stand der Technik erzielt und seine Leistung beim ASR-Benchmark ist mit anderen Modellen vergleichbar.

Durch die Nutzung der Audio-Hinweise von AudioLM ist das AudioPaLM-Modell in der Lage, S2ST bei der Sprachmigration neuer Sprecher durchzuführen und dabei bestehende Methoden in Bezug auf Sprachqualität und Spracherhaltung zu übertreffen.

Das AudioPaLM-Modell verfügt außerdem über die Zero-Shot-Fähigkeit, AST-Aufgaben für Kombinationen aus Spracheingabe und Zielsprache auszuführen, die im Training nicht vorkommen.

AudioPaLM

Die Forscher verwenden ein reines Decoder-Transformer-Modell, um Text- und Sprachtokens zu modellieren. Der Text und das Audio wurden vor der Eingabe in das Modell segmentiert, sodass die Eingabe nur eine Folge von ganzen Zahlen ist Ausgabe Ende Führen Sie dann den detokenisierten Vorgang aus und geben Sie ihn an den Benutzer zurück.

Google AudioPaLM implementiert die dualmodale Lösung „Text + Audio, ein großes Modell für Sprechen und HörenBilder

Audioeinbettung und Wortsegmentierung

Der Prozess der Umwandlung der ursprünglichen Audiowellenform in Token umfasst das Extrahieren von Einbettungen aus vorhandenen Sprachdarstellungsmodellen und die Diskretisierung der Einbettungen in einen begrenzten Satz von Audio-Tokens

In früheren Arbeiten wurden die Einbettungen aus dem w2v-BERT-Modell extrahiert und mit k-means quantisiert. In diesem Artikel experimentierten die Forscher mit drei Schemata:

w2v-BERT: Verwenden Sie das w2v -Das BERT-Modell wird auf mehrsprachigen Daten statt auf reinem Englisch trainiert. Vor dem K-Means-Clustering wird keine Normalisierungsverarbeitung durchgeführt, da sonst die Leistung in der mehrsprachigen Umgebung beeinträchtigt wird. Generieren Sie dann Token mit einer Rate von 25 Hz und einer Vokabulargröße von 1024 USM-v2: Mit zusätzlichem ASR-Verlust trainiert und weiter verfeinert, um mehrere Sprachen zu unterstützen.

Ändern Sie den Nur-Text-Decoder

In der Transfomrer-Decoderstruktur ist die Anzahl der Modellierungstoken mit Ausnahme der Eingabe- und der letzten Softmax-Ausgabeschicht nicht beteiligt, und in der PaLM-Architektur ist Die Gewichtsvariablen der Eingabe- und Ausgabematrizen werden gemeinsam genutzt, das heißt, sie sind Transponierte voneinander. Sie müssen also nur die Größe der Einbettungsmatrix von (t × m) auf (t+a) ×m erweitern, um ein reines Textmodell in ein Modell umzuwandeln, das sowohl Text als auch Audio simulieren kann, wobei t ist die Größe des Textvokabulars, a ist die Größe des Audiovokabulars und m ist die Einbettungsdimension.

Um das vorab trainierte Textmodell zu nutzen, änderten die Forscher den Prüfpunkt des vorhandenen Modells, indem sie der Einbettungsmatrix neue Zeilen hinzufügten.

Die spezifische Implementierung besteht darin, dass die ersten t-Tokens den SentencePiece-Text-Tags entsprechen und die folgenden a-Tokens die Audio-Tags darstellen. Obwohl die Texteinbettung die vorab trainierten Gewichte wiederverwendet, wird die Audio-Einbettung neu initialisiert und muss es sein ausgebildet.

Experimentelle Ergebnisse zeigen, dass textbasierte Pre-Training-Modelle im Vergleich zu einem Neutraining von Grund auf sehr vorteilhaft für die Verbesserung der Leistung multimodaler Sprach- und Textaufgaben sind.

AUDIO TOKEN -Decodierung in native Audio

In -Anordnung zur Synthese von Audiowellenformen von Audio -Token, experimentierten die Forscher mit zwei verschiedenen Methoden:

1.

2. Nicht-autoregressive Dekodierung ähnlich dem SoundStorm-Modell

Beide Methoden müssen zuerst das SoundStream-Token generieren und es dann mithilfe eines Faltungsdecoders in eine Audiowellenform umwandeln.

Die auf Multilingual LibriSpeech geschulten Forscher sind eine 3 Sekunden lange Sprachprobe, die gleichzeitig als Audio-Token und SoundStream-Token dargestellt wird.

Durch die Bereitstellung eines Teils der ursprünglichen Eingabesprache Als Sprachbedingung ist das Modell in der Lage zu sprechen. Wenn menschliche Sprache in verschiedene Sprachen übersetzt wird, bleibt die Sprache des ursprünglichen Sprechers erhalten. Wenn der ursprüngliche Ton kürzer als 3 Sekunden ist, wird die leere Zeit durch wiederholte Wiedergabe gefüllt.

Trainingsaufgabe

Die verwendeten Trainingsdatensätze sind alle Sprachtextdaten:

1. Audio: Sprache in der Ausgangssprache (Sprache)

2. Transkription : Transkription von Sprache in Audiodaten

3. Übersetztes Audio Übersetztes Audio: Gesprochene Übersetzung von Sprache in Audio

4. Übersetztes Transkript: Schriftliche Übersetzung von Sprache in Audio

Zu den Aufgaben gehören: ... in Sprachübersetzung): Übersetzen Sie Audio, um übersetztes Audio zu erhalten

4. TTS (Text to Speech): Lesen Sie den transkribierten Inhalt vor, um Audio zu erhalten.

5. MT (Text-zu-Text-Maschinenübersetzung): Übersetzen Sie das Transkript, um das übersetzte Transkript zu erhalten.

Ein Datensatz kann für mehrere Aufgaben verwendet werden, daher entschieden sich die Forscher, dem Modell zu signalisieren, welche Aufgabe es ist Die Leistung des Modells für eine bestimmte Eingabe wird durch Hinzufügen einer Bezeichnung vor der Eingabe angegeben, die den englischen Namen der Aufgabe und die Eingabesprache angibt. Die Ausgabesprache kann ebenfalls ausgewählt werden.

Wenn Sie beispielsweise möchten, dass das Modell ASR auf dem französischen Korpus ausführt, müssen Sie nach der Wortsegmentierung die Bezeichnung [ASR Französisch] vor der Audioeingabe hinzufügen; um TTS-Aufgaben auf Englisch auszuführen, müssen Sie hinzufügen [TTS English] vor dem Text; Um die S2ST-Aufgabe vom Englischen ins Französische auszuführen, wird dem segmentierten englischen Audio [S2ST English French] vorangestellt

Training Mix

Die Forscher verwendeten Die SeqIO-Bibliothek zum Mischen der Trainingsdaten wird einer Gewichtsreduzierung unterzogen.

BilderExperimenteller Teil

Bilder

AudioPaLM übertrifft andere Basismodelle bei AST- und S2ST-Aufgaben. Obwohl die Leistung bei ASR nicht optimal ist, ist die Wirkung auch sehr gut.

Google AudioPaLM implementiert die dualmodale Lösung „Text + Audio, ein großes Modell für Sprechen und HörenZusätzlich zur Bewertung der Übersetzungsqualität von Sprachinhalten bewerteten die Forscher auch, ob die von AudioPaLM erzeugte Sprache von ausreichend hoher Qualität war und ob die Stimme des Sprechers bei der Übersetzung in verschiedene Sprachen erhalten blieb.

Google AudioPaLM implementiert die dualmodale Lösung „Text + Audio, ein großes Modell für Sprechen und HörenObjektive Metriken

Die Verwendung von etwas Ähnlichem wie dem referenzfreien MOS-Schätzer liefert anhand eines Audiobeispiels eine Schätzung der wahrgenommenen Audioqualität auf einer Skala von 1 bis 5.

Um die Qualität der Sprachübertragung über Sprachen hinweg zu messen, verwendeten die Forscher handelsübliche Sprecherverifizierungsmodelle und berechneten die Kosinusähnlichkeit zwischen der Quelle (kodiert/dekodiert mit SoundStream) und den ebenfalls gemessenen Einbettungen der übersetzten Sprache die Einbettungen von akustischen Eigenschaften des Quellaudios in das Zielaudio (Aufnahmebedingungen, Hintergrundgeräusche).

Subjektive Bewertung

Die Forscher führten zwei unabhängige Studien durch, um die erzeugte Stimmqualität und Stimmähnlichkeit zu bewerten, wobei sie in beiden Studien denselben Satz von Proben verwendeten.

Aufgrund der ungleichmäßigen Qualität des Korpus kommt es bei einigen zu lauten, überlappenden Sprache (z. B. bei im Hintergrund abgespielten Fernsehsendungen oder Liedern) oder zu extrem starken Geräuschen (z. B. wenn Kleidung am Mikrofon reibt). Menschen Die Arbeit des Bewerters war kompliziert, daher entschieden sich die Forscher für eine Vorfilterung, indem sie nur Eingaben mit einer MOS-Schätzung von mindestens 3,0 auswählten.

Die Bewertungen erfolgen auf einer 5-Punkte-Skala von 1 (schlechte Qualität oder völlig anderer Klang) bis 5 (gute Qualität, gleicher Klang).

Google AudioPaLM implementiert die dualmodale Lösung „Text + Audio, ein großes Modell für Sprechen und HörenBilder

Aus den Ergebnissen geht hervor, dass AudioPaLM das Basissystem Translatotron 2 in Bezug auf Audioqualität und Sprachähnlichkeit sowohl bei objektiven als auch bei subjektiven Messungen deutlich übertrifft und AudioPaLM in puncto Audioqualität und Sprachähnlichkeit deutlich besser ist als das echte System Synthetische CVSS-T-Aufnahmen weisen eine höhere Qualität und eine bessere Stimmähnlichkeit auf und sind in den meisten Indikatoren deutlich verbessert.

Die Forscher verglichen auch Systeme in Gruppen mit hohen und niedrigen Ressourcen (Französisch, Deutsch, Spanisch und Katalanisch im Vergleich zu anderen Sprachen) und fanden keine signifikanten Unterschiede in den Metriken zwischen diesen Gruppen.

Das obige ist der detaillierte Inhalt vonGoogle AudioPaLM implementiert die dualmodale Lösung „Text + Audio', ein großes Modell für Sprechen und Hören. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertKochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesUmfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenDiese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleGenerative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikDer Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

Der Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteDer Aufstieg des KI -Analysten: Warum dies der wichtigste Job in der KI -Revolution sein könnteApr 12, 2025 am 11:41 AM

Mein jüngstes Gespräch mit Andy Macmillan, CEO der führenden Unternehmensanalyse -Plattform Alteryx, zeigte diese kritische, aber unterschätzte Rolle in der KI -Revolution. Wie Macmillan erklärt, die Lücke zwischen Rohgeschäftsdaten und KI-fertigen Informat

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

DVWA

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

Herunterladen der Mac-Version des Atom-Editors

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

SublimeText3 Englische Version

SublimeText3 Englische Version

Empfohlen: Win-Version, unterstützt Code-Eingabeaufforderungen!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Leistungsstarke integrierte PHP-Entwicklungsumgebung