Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

王林
王林nach vorne
2023-06-03 14:05:321054Durchsuche

Große Sprachmodelle (LLM) verändern die Erwartungen der Benutzer in jeder Branche. Die Entwicklung generativer KI-Produkte, die sich auf die menschliche Sprache konzentrieren, bleibt jedoch schwierig, da Audiodateien eine Herausforderung für große Sprachmodelle darstellen.


Eine wesentliche Herausforderung bei der Anwendung von LLM auf Audiodateien besteht darin, dass LLM durch sein Kontextfenster begrenzt ist. Bevor eine Audiodatei in LLM eingespeist werden kann, muss sie in Text konvertiert werden. Je länger die Audiodatei ist, desto größer ist die technische Herausforderung, die Einschränkungen des LLM-Kontextfensters zu umgehen. Aber in Arbeitsszenarien benötigen wir oft LLM, um uns bei der Verarbeitung sehr langer Sprachdateien zu helfen, beispielsweise beim Extrahieren des Kerninhalts aus einer mehrstündigen Besprechungsaufzeichnung oder beim Finden der Antwort auf eine bestimmte Frage aus einem Interview ...

Vor kurzem hat das Spracherkennungs-KI-Unternehmen AssemblyAI ein neues Modell namens LeMUR auf den Markt gebracht. So wie ChatGPT Dutzende Seiten PDF-Text verarbeitet, kann LeMUR bis zu 10 Stunden an Aufzeichnungen transkribieren und verarbeiten und Benutzern dann dabei helfen, den Kerninhalt der Rede zusammenzufassen und vom Benutzer eingegebene Fragen zu beantworten.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Testadresse: https://www.assemblyai.com/playground/v2/source

LeMUR nutzt große Sprachmodelle, um erkannte Sprache zu verstehen (Verwendung großer Sprachmodelle zum Verstehen Recognized Speech) ist ein neues Framework, das leistungsstarkes LLM auf transkribierte Sprache anwendet. Mit nur einer Codezeile (über das Python SDK von AssemblyAI) kann LeMUR die Transkription von bis zu 10 Stunden Audioinhalt schnell verarbeiten und diese effektiv in etwa 150.000 Token umwandeln. Im Gegensatz dazu können Standard-LLMs innerhalb der Einschränkungen ihres Kontextfensters nur bis zu 8 KB oder etwa 45 Minuten transkribiertes Audio aufnehmen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Um die Komplexität der Anwendung von LLM auf transkribierte Audiodateien zu reduzieren, umfasst die Pipeline von LeMUR hauptsächlich intelligente Segmentierung, eine schnelle Vektordatenbank und mehrere Argumentationsschritte (wie Denkkettenaufforderungen und Selbsteinschätzung). wie unten gezeigt:

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Abbildung 1: Die Architektur von LeMUR ermöglicht es Benutzern, lange und/oder mehrere Audiotranskriptionsdateien mit einem einzigen API-Aufruf an LLM zu senden.

In Zukunft wird LeMUR voraussichtlich im Kundenservice und in anderen Bereichen weit verbreitet sein.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

LeMUR eröffnet einige erstaunliche neue Möglichkeiten, die ich noch vor ein paar Jahren nicht für möglich gehalten hätte. Es fühlt sich wirklich erstaunlich an, mühelos wertvolle Erkenntnisse gewinnen zu können, etwa zur Ermittlung der besten Maßnahmen und zu anspruchsvollen Anrufergebnissen wie Verkäufen, Terminen oder dem Zweck des Anrufs. ——Ryan Johnson, Chief Product Officer bei CallRail, einem Technologieunternehmen für Anrufverfolgung und Analysedienste

Welche Möglichkeiten eröffnet LeMUR?

LLM auf mehrere Audiotexte anwenden

Mit LeMUR können Benutzer LLM-Verarbeitungsfeedback für mehrere Audiodateien gleichzeitig sowie bis zu 10 Stunden Sprachtranskriptionsergebnisse und die Länge des konvertierten Textes erhalten Token Bis zu 150.000.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Zuverlässige, sichere Ausgabe

Da LeMUR Sicherheitsmaßnahmen und Inhaltsfilter enthält, erhalten Benutzer Antworten von LLM, die weniger schädlich oder voreingenommen sind.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Ergänzender Kontext

Während der Inferenz können zusätzliche Kontextinformationen hinzugefügt werden, die LLM nutzen kann, um bei der Ausgabegenerierung personalisierte und genauere Ergebnisse zu liefern.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Modulare, schnelle Integration

LeMUR gibt strukturierte Daten immer in einer verarbeitbaren JSON-Form zurück. Benutzer können das Ausgabeformat von LeMUR weiter anpassen, um sicherzustellen, dass die vom LLM gegebene Antwort das Format hat, das von ihrer nächsten Geschäftslogik erwartet wird (z. B. Konvertieren der Antwort in einen booleschen Wert). In diesem Prozess müssen Benutzer keinen spezifischen Code mehr schreiben, um die Ausgabe von LLM zu verarbeiten.

Testergebnisse

Laut dem von AssemblyAI bereitgestellten Testlink hat Machine Heart LeMUR getestet.

Die Benutzeroberfläche von LeMUR unterstützt zwei Dateieingabemethoden: Hochladen von Audio- und Videodateien oder Einfügen von Weblinks.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Wir haben aktuelle Interviewdaten von Hinton als Input verwendet, um die Leistung von LeMUR zu testen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Nach dem Hochladen fordert uns das System auf, eine Weile zu warten, da die Sprache zunächst in Text umgewandelt werden muss.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Die Schnittstelle nach der Transkription sieht wie folgt aus:

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Auf der rechten Seite der Seite können wir LeMUR bitten, das Interview zusammenzufassen oder Fragen zu beantworten. LeMUR kann die Aufgabe grundsätzlich problemlos erledigen:

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Wenn es sich bei der zu verarbeitenden Stimme um eine Rede oder eine Kundendienstantwort handelt, können Sie LeMUR auch um Verbesserungsvorschläge bitten.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Allerdings scheint LeMUR Chinesisch noch nicht zu unterstützen. Interessierte Leser können es ausprobieren.

Das obige ist der detaillierte Inhalt vonChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen