


Google AudioPaLM implementiert die dualmodale Lösung „Text + Audio', ein großes Modell für Sprechen und Hören
Groß angelegte Sprachmodelle haben mit ihrer leistungsstarken Leistung und Vielseitigkeit die Entwicklung einer Reihe multimodaler großer Modelle wie Audio, Video usw. vorangetrieben.
Die zugrunde liegende Architektur des Sprachmodells basiert größtenteils auf Transformer und hauptsächlich auf Decoder, sodass die Modellarchitektur ohne große Anpassungen an andere Sequenzmodalitäten angepasst werden kann.
Kürzlich hat Google ein einheitliches Sprachtextmodell AudioPaLM veröffentlicht, das Text- und Audio-Tokens zu einem multimodalen gemeinsamen Vokabular zusammenführt und es mit verschiedenen Aufgabenbeschreibungs-Tags kombiniert, um eine beliebige Mischung aus Sprache und Text zu erreichen. Nur Modelle für Aufgaben, einschließlich Spracherkennung (ASR), Text-zu-Sprache-Synthese, automatische Sprachübersetzung (AST) und Sprache-zu-Sprache-Übersetzung (S2ST) usw., wodurch Aufgaben, die traditionell von heterogenen Modellen gelöst werden, in einer Architektur vereint werden und Ausbildungsprozess.
Bilder
Papierlink: https://arxiv.org/pdf/2306.12925.pdf
Beispiellink: https://google-research.github.io/seanet/audiopalm/examples /
Da die zugrunde liegende Architektur von AudioPaLM außerdem ein großes Transformer-Modell ist, das mit den Gewichten eines großen Sprachmodells initialisiert werden kann, das vorab auf Text trainiert wurde, kann es vom linguistischen Wissen von Modellen wie PaLM profitieren .
Aus der Perspektive der Implementierungsergebnisse hat AudioPaLM bei den AST- und S2ST-Benchmarks Ergebnisse auf dem neuesten Stand der Technik erzielt und seine Leistung beim ASR-Benchmark ist mit anderen Modellen vergleichbar.
Durch die Nutzung der Audio-Hinweise von AudioLM ist das AudioPaLM-Modell in der Lage, S2ST bei der Sprachmigration neuer Sprecher durchzuführen und dabei bestehende Methoden in Bezug auf Sprachqualität und Spracherhaltung zu übertreffen.
Das AudioPaLM-Modell verfügt außerdem über die Zero-Shot-Fähigkeit, AST-Aufgaben für Kombinationen aus Spracheingabe und Zielsprache auszuführen, die im Training nicht vorkommen.
AudioPaLM
Die Forscher verwenden ein reines Decoder-Transformer-Modell, um Text- und Sprachtokens zu modellieren. Der Text und das Audio wurden vor der Eingabe in das Modell segmentiert, sodass die Eingabe nur eine Folge von ganzen Zahlen ist Ausgabe Ende Führen Sie dann den detokenisierten Vorgang aus und geben Sie ihn an den Benutzer zurück.
Bilder
Audioeinbettung und Wortsegmentierung
Der Prozess der Umwandlung der ursprünglichen Audiowellenform in Token umfasst das Extrahieren von Einbettungen aus vorhandenen Sprachdarstellungsmodellen und die Diskretisierung der Einbettungen in einen begrenzten Satz von Audio-Tokens
In früheren Arbeiten wurden die Einbettungen aus dem w2v-BERT-Modell extrahiert und mit k-means quantisiert. In diesem Artikel experimentierten die Forscher mit drei Schemata:
w2v-BERT: Verwenden Sie das w2v -Das BERT-Modell wird auf mehrsprachigen Daten statt auf reinem Englisch trainiert. Vor dem K-Means-Clustering wird keine Normalisierungsverarbeitung durchgeführt, da sonst die Leistung in der mehrsprachigen Umgebung beeinträchtigt wird. Generieren Sie dann Token mit einer Rate von 25 Hz und einer Vokabulargröße von 1024 USM-v2: Mit zusätzlichem ASR-Verlust trainiert und weiter verfeinert, um mehrere Sprachen zu unterstützen.
Ändern Sie den Nur-Text-Decoder
In der Transfomrer-Decoderstruktur ist die Anzahl der Modellierungstoken mit Ausnahme der Eingabe- und der letzten Softmax-Ausgabeschicht nicht beteiligt, und in der PaLM-Architektur ist Die Gewichtsvariablen der Eingabe- und Ausgabematrizen werden gemeinsam genutzt, das heißt, sie sind Transponierte voneinander. Sie müssen also nur die Größe der Einbettungsmatrix von (t × m) auf (t+a) ×m erweitern, um ein reines Textmodell in ein Modell umzuwandeln, das sowohl Text als auch Audio simulieren kann, wobei t ist die Größe des Textvokabulars, a ist die Größe des Audiovokabulars und m ist die Einbettungsdimension.
Um das vorab trainierte Textmodell zu nutzen, änderten die Forscher den Prüfpunkt des vorhandenen Modells, indem sie der Einbettungsmatrix neue Zeilen hinzufügten.
Die spezifische Implementierung besteht darin, dass die ersten t-Tokens den SentencePiece-Text-Tags entsprechen und die folgenden a-Tokens die Audio-Tags darstellen. Obwohl die Texteinbettung die vorab trainierten Gewichte wiederverwendet, wird die Audio-Einbettung neu initialisiert und muss es sein ausgebildet.
Experimentelle Ergebnisse zeigen, dass textbasierte Pre-Training-Modelle im Vergleich zu einem Neutraining von Grund auf sehr vorteilhaft für die Verbesserung der Leistung multimodaler Sprach- und Textaufgaben sind.
AUDIO TOKEN -Decodierung in native Audio
In -Anordnung zur Synthese von Audiowellenformen von Audio -Token, experimentierten die Forscher mit zwei verschiedenen Methoden:
1.
2. Nicht-autoregressive Dekodierung ähnlich dem SoundStorm-ModellBeide Methoden müssen zuerst das SoundStream-Token generieren und es dann mithilfe eines Faltungsdecoders in eine Audiowellenform umwandeln.
Die auf Multilingual LibriSpeech geschulten Forscher sind eine 3 Sekunden lange Sprachprobe, die gleichzeitig als Audio-Token und SoundStream-Token dargestellt wird.
Durch die Bereitstellung eines Teils der ursprünglichen Eingabesprache Als Sprachbedingung ist das Modell in der Lage zu sprechen. Wenn menschliche Sprache in verschiedene Sprachen übersetzt wird, bleibt die Sprache des ursprünglichen Sprechers erhalten. Wenn der ursprüngliche Ton kürzer als 3 Sekunden ist, wird die leere Zeit durch wiederholte Wiedergabe gefüllt.
Trainingsaufgabe
Die verwendeten Trainingsdatensätze sind alle Sprachtextdaten:1. Audio: Sprache in der Ausgangssprache (Sprache)
2. Transkription : Transkription von Sprache in Audiodaten
3. Übersetztes Audio Übersetztes Audio: Gesprochene Übersetzung von Sprache in Audio
4. Übersetztes Transkript: Schriftliche Übersetzung von Sprache in Audio
Zu den Aufgaben gehören: ... in Sprachübersetzung): Übersetzen Sie Audio, um übersetztes Audio zu erhalten
4. TTS (Text to Speech): Lesen Sie den transkribierten Inhalt vor, um Audio zu erhalten.
5. MT (Text-zu-Text-Maschinenübersetzung): Übersetzen Sie das Transkript, um das übersetzte Transkript zu erhalten.
Ein Datensatz kann für mehrere Aufgaben verwendet werden, daher entschieden sich die Forscher, dem Modell zu signalisieren, welche Aufgabe es ist Die Leistung des Modells für eine bestimmte Eingabe wird durch Hinzufügen einer Bezeichnung vor der Eingabe angegeben, die den englischen Namen der Aufgabe und die Eingabesprache angibt. Die Ausgabesprache kann ebenfalls ausgewählt werden.
Wenn Sie beispielsweise möchten, dass das Modell ASR auf dem französischen Korpus ausführt, müssen Sie nach der Wortsegmentierung die Bezeichnung [ASR Französisch] vor der Audioeingabe hinzufügen; um TTS-Aufgaben auf Englisch auszuführen, müssen Sie hinzufügen [TTS English] vor dem Text; Um die S2ST-Aufgabe vom Englischen ins Französische auszuführen, wird dem segmentierten englischen Audio [S2ST English French] vorangestellt
Training Mix
Die Forscher verwendeten Die SeqIO-Bibliothek zum Mischen der Trainingsdaten wird einer Gewichtsreduzierung unterzogen.
BilderExperimenteller Teil
BilderAudioPaLM übertrifft andere Basismodelle bei AST- und S2ST-Aufgaben. Obwohl die Leistung bei ASR nicht optimal ist, ist die Wirkung auch sehr gut.
Zusätzlich zur Bewertung der Übersetzungsqualität von Sprachinhalten bewerteten die Forscher auch, ob die von AudioPaLM erzeugte Sprache von ausreichend hoher Qualität war und ob die Stimme des Sprechers bei der Übersetzung in verschiedene Sprachen erhalten blieb.
Objektive Metriken
Die Verwendung von etwas Ähnlichem wie dem referenzfreien MOS-Schätzer liefert anhand eines Audiobeispiels eine Schätzung der wahrgenommenen Audioqualität auf einer Skala von 1 bis 5.
Um die Qualität der Sprachübertragung über Sprachen hinweg zu messen, verwendeten die Forscher handelsübliche Sprecherverifizierungsmodelle und berechneten die Kosinusähnlichkeit zwischen der Quelle (kodiert/dekodiert mit SoundStream) und den ebenfalls gemessenen Einbettungen der übersetzten Sprache die Einbettungen von akustischen Eigenschaften des Quellaudios in das Zielaudio (Aufnahmebedingungen, Hintergrundgeräusche).
Subjektive Bewertung
Die Forscher führten zwei unabhängige Studien durch, um die erzeugte Stimmqualität und Stimmähnlichkeit zu bewerten, wobei sie in beiden Studien denselben Satz von Proben verwendeten.
Aufgrund der ungleichmäßigen Qualität des Korpus kommt es bei einigen zu lauten, überlappenden Sprache (z. B. bei im Hintergrund abgespielten Fernsehsendungen oder Liedern) oder zu extrem starken Geräuschen (z. B. wenn Kleidung am Mikrofon reibt). Menschen Die Arbeit des Bewerters war kompliziert, daher entschieden sich die Forscher für eine Vorfilterung, indem sie nur Eingaben mit einer MOS-Schätzung von mindestens 3,0 auswählten.
Die Bewertungen erfolgen auf einer 5-Punkte-Skala von 1 (schlechte Qualität oder völlig anderer Klang) bis 5 (gute Qualität, gleicher Klang).
Bilder
Aus den Ergebnissen geht hervor, dass AudioPaLM das Basissystem Translatotron 2 in Bezug auf Audioqualität und Sprachähnlichkeit sowohl bei objektiven als auch bei subjektiven Messungen deutlich übertrifft und AudioPaLM in puncto Audioqualität und Sprachähnlichkeit deutlich besser ist als das echte System Synthetische CVSS-T-Aufnahmen weisen eine höhere Qualität und eine bessere Stimmähnlichkeit auf und sind in den meisten Indikatoren deutlich verbessert.
Die Forscher verglichen auch Systeme in Gruppen mit hohen und niedrigen Ressourcen (Französisch, Deutsch, Spanisch und Katalanisch im Vergleich zu anderen Sprachen) und fanden keine signifikanten Unterschiede in den Metriken zwischen diesen Gruppen.
Das obige ist der detaillierte Inhalt vonGoogle AudioPaLM implementiert die dualmodale Lösung „Text + Audio', ein großes Modell für Sprechen und Hören. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Der Begriff "AI-fähige Belegschaft" wird häufig verwendet, aber was bedeutet das in der Lieferkettenindustrie wirklich? Nach Abe Eshkenazi, CEO des Association for Supply Chain Management (ASCM), bedeutet dies Fachkräfte, die kritisch sind

Die dezentrale KI -Revolution gewinnt leise an Dynamik. An diesem Freitag in Austin, Texas, markiert der Bittensor Endgame Summit einen entscheidenden Moment, in dem die dezentrale KI (DEAI) von Theorie zu praktischer Anwendung übergeht. Im Gegensatz zum glitzernden Werbespot

Enterprise KI steht vor der Datenintegrationsprobleme Die Anwendung von Enterprise KI steht vor einer großen Herausforderung: Aufbau von Systemen, die die Genauigkeit und Praktikabilität durch kontinuierlich lernende Geschäftsdaten aufrechterhalten können. NEMO Microservices lösen dieses Problem, indem er das erstellt, was NVIDIA als "Datenschwungrad" beschreibt und KI -Systemen durch kontinuierliche Exposition gegenüber Unternehmensinformationen und Benutzerinteraktion relevant bleibt. Dieses neu gestartete Toolkit enthält fünf wichtige Microservices: Nemo Customizer behandelt die Feinabstimmung großer Sprachmodelle mit höherem Trainingsdurchsatz. NEMO Evaluator bietet eine vereinfachte Bewertung von KI -Modellen für benutzerdefinierte Benchmarks. NEMO -Leitplanken implementiert Sicherheitskontrollen, um die Einhaltung und Angemessenheit aufrechtzuerhalten

AI: Die Zukunft von Kunst und Design Künstliche Intelligenz (KI) verändert das Kunst- und Designgebiet auf beispiellose Weise, und seine Auswirkungen beschränken sich nicht mehr auf Amateure, sondern beeinflussen jedoch die Fachkräfte. Kunstwerke und Designschemata, die von KI erzeugt wurden, ersetzen traditionelle materielle Bilder und Designer in vielen Transaktionsdesignaktivitäten wie Werbung, Social -Media -Bildgenerierung und Webdesign schnell. Professionelle Künstler und Designer finden jedoch auch den praktischen Wert von KI. Sie verwenden AI als Hilfsmittel, um neue ästhetische Möglichkeiten zu erforschen, verschiedene Stile zu mischen und neuartige visuelle Effekte zu erzeugen. KI hilft Künstlern und Designer, sich wiederholende Aufgaben zu automatisieren, verschiedene Designelemente vorzuschlagen und kreative Eingaben zu leisten. AI unterstützt den Stiltransfer, der einen Bildstil anwenden soll

Zoom, ursprünglich für seine Video -Konferenz -Plattform bekannt, führt eine Revolution am Arbeitsplatz mit der innovativen Nutzung der Agenten -KI. Ein aktuelles Gespräch mit Zooms CTO, XD Huang, enthüllte die ehrgeizige Vision des Unternehmens. Definieren von Agenten AI Huang d

Wird AI die Bildung revolutionieren? Diese Frage führt zu ernsthafter Reflexion unter Pädagogen und Stakeholdern. Die Integration von KI in Bildung bietet sowohl Chancen als auch Herausforderungen. Wie Matthew Lynch von The Tech Edvocate bemerkt, Universität

Die Entwicklung wissenschaftlicher Forschung und Technologie in den Vereinigten Staaten kann vor Herausforderungen stehen, möglicherweise aufgrund von Budgetkürzungen. Nach der Natur stieg die Zahl der amerikanischen Wissenschaftler, die sich für Arbeitsplätze in Übersee bewerben, von Januar bis März 2025 im Vergleich zum gleichen Zeitraum von 2024 um 32%. Eine frühere Umfrage ergab, dass 75% der untersuchten Forscher über die Suche nach Arbeitsplätzen in Europa und Kanada in Betracht gezogen wurden. In den letzten Monaten wurden Hunderte von NIH- und NSF-Zuschüssen beendet, wobei die neuen Zuschüsse von NIH in diesem Jahr um etwa 2,3 Milliarden US-Dollar gesunken sind, ein Rückgang von fast einem Drittel. Der durchgesickerte Haushaltsvorschlag zeigt, dass die Trump -Administration mit einer möglichen Reduzierung von um bis zu 50%ein starkes Budget für wissenschaftliche Institutionen in Betracht zieht. Die Turbulenzen auf dem Gebiet der Grundlagenforschung haben sich auch auf einen der Hauptvorteile der Vereinigten Staaten ausgewirkt: die Gewinnung von Talenten in Übersee. 35

OpenAI enthüllt die leistungsstarke GPT-4.1-Serie: eine Familie von drei fortschrittlichen Sprachmodellen für reale Anwendungen. Dieser signifikante Sprung nach vorne bietet schnellere Reaktionszeiten, verbessertes Verständnis und drastisch reduzierte Kosten im Vergleich t t


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

DVWA
Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

EditPlus chinesische Crack-Version
Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

WebStorm-Mac-Version
Nützliche JavaScript-Entwicklungstools
