Heim >Technologie-Peripheriegeräte >KI >Chen Gen: Meta übernimmt die Führung und führt KI-Großmodell-MMS ein
Text/Chen Gen
Wie viele Sprachen kennst du? Nach einschlägigen Angaben gibt es auf der Welt mehr als 7.000 Sprachen. Allerdings kennen wir möglicherweise nur einige oder Dutzende davon. Die aktuelle Computer-Spracherkennungstechnologie kann mehr als 100 Typen abdecken. Für viele Menschen ist dies eine astronomische Zahl. Aber das neue Open-Source-Sprachmodell von Meta hat noch größere Durchbrüche erzielt.
Seit der Trennung von OpenAI und Google ist Meta immer tiefer in Richtung großer Open-Source-Modelle vorgedrungen. Metas neues Open-Source-KI-Sprachmodell auf GitHub – Massively Multilingual Speech (MMS, Massively Multilingual Speech) kann mehr als 4.000 gesprochene Sprachen erkennen, 40-mal so viele wie derzeit bekannte Technologien, und erweitert außerdem die Text- und Sprache-zu-Sprache-Konvertierung Die Technologie reicht von etwa 100 Sprachen bis zu mehr als 1.100. Darüber hinaus ist das herausragendste Merkmal von Metas Open-Source-MMS, dass es nicht nur ASR, sondern auch TTS unterstützt, was bedeutet, dass es nicht nur Sprache in Text, sondern auch Text in Sprache umwandeln kann.
Metas offizieller Website-Blog erwähnte ausdrücklich Tatuyo, eine kleine Sprache, die nur von wenigen Hundert Menschen gesprochen wird. Auch wenn es für den täglichen Gebrauch kaum von Nutzen ist, ist es ein guter Helfer für die Recherche. Wie können wir also Datensätze für diese kleine Sprache, die nur von wenigen Hundert Menschen gesprochen wird, finden und effektiv verfeinern?
Meta sagte, dass sie beim Sammeln von Audiodaten in Tausenden von Sprachen eine unkonventionelle Methode verwendet hätten – religiöse Textaufzeichnung. „Wir wenden uns religiösen Texten (wie der Bibel) zu, die in viele verschiedene Sprachen übersetzt wurden und deren Übersetzungen für die textbasierte Sprachübersetzungsforschung umfassend untersucht wurden. Darüber hinaus verfügen diese Übersetzungen über öffentlich zugängliche Aufzeichnungen von Menschen, die verschiedene The.“ Kontext des Sprachlesens.“
Gleichzeitig verwendet Meta beim Training des MMS-Modells das „selbstüberwachte Sprachrepräsentationslern“-Modell wav2vec 2.0 des Unternehmens, sodass die Maschine lernen kann, ohne auf gekennzeichnete Trainingsdaten angewiesen zu sein ein Spracherkennungsmodell für die Daten.
In Bezug auf die Modellverzerrung, die sich aus diesem Ansatz ergeben könnte, behauptete Meta: „Obwohl diese Daten aus einem bestimmten Bereich stammen und normalerweise von Männern gelesen werden, zeigt unsere Analyse, dass unser Modell bei männlichen und weiblichen Stimmen gleich gut abschneidet Die Aufnahme ist religiös, aber unsere Analyse zeigt, dass das Modell dadurch nicht dazu tendiert, eine religiösere Sprache zu produzieren
Bei der Verwendung des 1B-Parameters wav2vec 2.0-Modells zum Trainieren eines mehrsprachigen Spracherkennungsmodells für mehr als 1.100 Sprachen stellten die Entwickler fest, dass die Leistung mit zunehmender Anzahl von Sprachen abnimmt, jedoch nur geringfügig: von 61 Sprachen auf Bei 1107 Sprachen stieg die Zeichenfehlerrate nur um etwa 0,4 %, aber die Sprachabdeckung erhöhte sich um mehr als das 17-fache.Zu diesem Thema führte Meta auch einen detaillierten Vergleich mit Whisper von OpenAI durch. Das auf den Daten trainierte Modell erreichte die Hälfte der Wortfehlerrate und die Trainingsdaten waren geringer: Die Trainingsdaten von Meta enthielten nur 45.000 Stunden annotierter Daten, was höher war als Whisper's. 10-mal weniger und 10-mal mehr Sprachunterstützung, was eine große Verbesserung darstellt. Meta sagte jedoch auch, dass sein neues Modell nicht perfekt sei. „Zum Beispiel besteht die Gefahr, dass das Speech-to-Text-Modell ausgewählte Wörter oder Phrasen falsch transkribiert. Wir glauben jedoch immer noch, dass die Zusammenarbeit der gesamten KI-Community dies ist.“ wichtig für verantwortungsbewusst „Es ist von entscheidender Bedeutung, die KI-Technologie unabhängig zu entwickeln.“ Meta hat jetzt die relevanten Modelle und den Code als Open Source bereitgestellt, damit andere in der Forschungsgemeinschaft auf dieser Arbeit aufbauen können.
Meta hat sich die Zukunft großer Sprachmodelle noch nicht vollständig vorgestellt, aber sie hoffen, dies zu können und hoffen, dass ein Modell mehrere Sprachaufgaben in allen Sprachen lösen kann. „Wir haben verschiedene Modelle für Spracherkennung, Sprachsynthese und Spracherkennung trainiert, aber wir haben Grund zu der Annahme, dass ein Modell in Zukunft alle diese Aufgaben und noch mehr erledigen kann, was zu einer besseren Gesamtleistung führt“, sagte Meta.
Mit Blick auf die Zukunft hofft Meta, die MMS-Abdeckung zu erweitern, um mehr Sprachen zu unterstützen und den Umgang mit Dialekten zu verbessern. Sprachbarrieren zwischen Menschen auf der ganzen Welt werden weiter abgebaut, sodass Menschen aus allen Teilen der Welt normal über Ton kommunizieren können. Das ist eine schöne Vision, aber wir glauben, dass dieser Tag früher oder später kommen wird.
Das obige ist der detaillierte Inhalt vonChen Gen: Meta übernimmt die Führung und führt KI-Großmodell-MMS ein. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!