suchen
HeimTechnologie-PeripheriegeräteKIChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Große Sprachmodelle (LLM) verändern die Erwartungen der Benutzer in jeder Branche. Die Entwicklung generativer KI-Produkte, die sich auf die menschliche Sprache konzentrieren, bleibt jedoch schwierig, da Audiodateien eine Herausforderung für große Sprachmodelle darstellen.


Eine wesentliche Herausforderung bei der Anwendung von LLM auf Audiodateien besteht darin, dass LLM durch sein Kontextfenster begrenzt ist. Bevor eine Audiodatei in LLM eingespeist werden kann, muss sie in Text konvertiert werden. Je länger die Audiodatei ist, desto größer ist die technische Herausforderung, die Einschränkungen des LLM-Kontextfensters zu umgehen. Aber in Arbeitsszenarien benötigen wir oft LLM, um uns bei der Verarbeitung sehr langer Sprachdateien zu helfen, beispielsweise beim Extrahieren des Kerninhalts aus einer mehrstündigen Besprechungsaufzeichnung oder beim Finden der Antwort auf eine bestimmte Frage aus einem Interview ...

Vor kurzem hat das Spracherkennungs-KI-Unternehmen AssemblyAI ein neues Modell namens LeMUR auf den Markt gebracht. So wie ChatGPT Dutzende Seiten PDF-Text verarbeitet, kann LeMUR bis zu 10 Stunden an Aufzeichnungen transkribieren und verarbeiten und Benutzern dann dabei helfen, den Kerninhalt der Rede zusammenzufassen und vom Benutzer eingegebene Fragen zu beantworten.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Testadresse: https://www.assemblyai.com/playground/v2/source

LeMUR nutzt große Sprachmodelle, um erkannte Sprache zu verstehen (Verwendung großer Sprachmodelle zum Verstehen Recognized Speech) ist ein neues Framework, das leistungsstarkes LLM auf transkribierte Sprache anwendet. Mit nur einer Codezeile (über das Python SDK von AssemblyAI) kann LeMUR die Transkription von bis zu 10 Stunden Audioinhalt schnell verarbeiten und diese effektiv in etwa 150.000 Token umwandeln. Im Gegensatz dazu können Standard-LLMs innerhalb der Einschränkungen ihres Kontextfensters nur bis zu 8 KB oder etwa 45 Minuten transkribiertes Audio aufnehmen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Um die Komplexität der Anwendung von LLM auf transkribierte Audiodateien zu reduzieren, umfasst die Pipeline von LeMUR hauptsächlich intelligente Segmentierung, eine schnelle Vektordatenbank und mehrere Argumentationsschritte (wie Denkkettenaufforderungen und Selbsteinschätzung). wie unten gezeigt:

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Abbildung 1: Die Architektur von LeMUR ermöglicht es Benutzern, lange und/oder mehrere Audiotranskriptionsdateien mit einem einzigen API-Aufruf an LLM zu senden.

In Zukunft wird LeMUR voraussichtlich im Kundenservice und in anderen Bereichen weit verbreitet sein.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

LeMUR eröffnet einige erstaunliche neue Möglichkeiten, die ich noch vor ein paar Jahren nicht für möglich gehalten hätte. Es fühlt sich wirklich erstaunlich an, mühelos wertvolle Erkenntnisse gewinnen zu können, etwa zur Ermittlung der besten Maßnahmen und zu anspruchsvollen Anrufergebnissen wie Verkäufen, Terminen oder dem Zweck des Anrufs. ——Ryan Johnson, Chief Product Officer bei CallRail, einem Technologieunternehmen für Anrufverfolgung und Analysedienste

Welche Möglichkeiten eröffnet LeMUR?

LLM auf mehrere Audiotexte anwenden

Mit LeMUR können Benutzer LLM-Verarbeitungsfeedback für mehrere Audiodateien gleichzeitig sowie bis zu 10 Stunden Sprachtranskriptionsergebnisse und die Länge des konvertierten Textes erhalten Token Bis zu 150.000.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Zuverlässige, sichere Ausgabe

Da LeMUR Sicherheitsmaßnahmen und Inhaltsfilter enthält, erhalten Benutzer Antworten von LLM, die weniger schädlich oder voreingenommen sind.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Ergänzender Kontext

Während der Inferenz können zusätzliche Kontextinformationen hinzugefügt werden, die LLM nutzen kann, um bei der Ausgabegenerierung personalisierte und genauere Ergebnisse zu liefern.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Modulare, schnelle Integration

LeMUR gibt strukturierte Daten immer in einer verarbeitbaren JSON-Form zurück. Benutzer können das Ausgabeformat von LeMUR weiter anpassen, um sicherzustellen, dass die vom LLM gegebene Antwort das Format hat, das von ihrer nächsten Geschäftslogik erwartet wird (z. B. Konvertieren der Antwort in einen booleschen Wert). In diesem Prozess müssen Benutzer keinen spezifischen Code mehr schreiben, um die Ausgabe von LLM zu verarbeiten.

Testergebnisse

Laut dem von AssemblyAI bereitgestellten Testlink hat Machine Heart LeMUR getestet.

Die Benutzeroberfläche von LeMUR unterstützt zwei Dateieingabemethoden: Hochladen von Audio- und Videodateien oder Einfügen von Weblinks.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Wir haben aktuelle Interviewdaten von Hinton als Input verwendet, um die Leistung von LeMUR zu testen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Nach dem Hochladen fordert uns das System auf, eine Weile zu warten, da die Sprache zunächst in Text umgewandelt werden muss.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Die Schnittstelle nach der Transkription sieht wie folgt aus:

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Auf der rechten Seite der Seite können wir LeMUR bitten, das Interview zusammenzufassen oder Fragen zu beantworten. LeMUR kann die Aufgabe grundsätzlich problemlos erledigen:

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Wenn es sich bei der zu verarbeitenden Stimme um eine Rede oder eine Kundendienstantwort handelt, können Sie LeMUR auch um Verbesserungsvorschläge bitten.

ChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.

Allerdings scheint LeMUR Chinesisch noch nicht zu unterstützen. Interessierte Leser können es ausprobieren.

Das obige ist der detaillierte Inhalt vonChatGPT, das Sprache verstehen kann, ist da: 10 Stunden Aufzeichnung sind enthalten, und Sie können fragen, was Sie wollen.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme
Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen
10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssen10 generative AI -Codierungsweiterungen im VS -Code, die Sie untersuchen müssenApr 13, 2025 am 01:14 AM

Hey da, codieren Ninja! Welche Codierungsaufgaben haben Sie für den Tag geplant? Bevor Sie weiter in diesen Blog eintauchen, möchte ich, dass Sie über all Ihre Coding-Leiden nachdenken-die Auflistung auflisten diese auf. Erledigt? - Lassen Sie ’

Kochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertKochen innovation: Wie künstliche Intelligenz den Lebensmittelservice verändertApr 12, 2025 pm 12:09 PM

KI verstärken die Zubereitung der Lebensmittel KI -Systeme werden während der Nahten immer noch in der Zubereitung von Nahrungsmitteln eingesetzt. KI-gesteuerte Roboter werden in Küchen verwendet, um Aufgaben zur Zubereitung von Lebensmitteln zu automatisieren, z.

Umfassende Anleitung zu Python -Namespaces und variablen ScopesUmfassende Anleitung zu Python -Namespaces und variablen ScopesApr 12, 2025 pm 12:00 PM

Einführung Das Verständnis der Namespaces, Scopes und des Verhaltens von Variablen in Python -Funktionen ist entscheidend, um effizient zu schreiben und Laufzeitfehler oder Ausnahmen zu vermeiden. In diesem Artikel werden wir uns mit verschiedenen ASP befassen

Ein umfassender Leitfaden zu Vision Language Models (VLMs)Ein umfassender Leitfaden zu Vision Language Models (VLMs)Apr 12, 2025 am 11:58 AM

Einführung Stellen Sie sich vor, Sie gehen durch eine Kunstgalerie, umgeben von lebhaften Gemälden und Skulpturen. Was wäre, wenn Sie jedem Stück eine Frage stellen und eine sinnvolle Antwort erhalten könnten? Sie könnten fragen: „Welche Geschichte erzählst du?

MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400MediaTek steigert die Premium -Aufstellung mit Kompanio Ultra und Abmessung 9400Apr 12, 2025 am 11:52 AM

In diesem Monat hat MediaTek in diesem Monat eine Reihe von Ankündigungen gemacht, darunter das neue Kompanio Ultra und die Abmessung 9400. Diese Produkte füllen die traditionelleren Teile von MediaTeks Geschäft aus, die Chips für Smartphone enthalten

Diese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenDiese Woche in AI: Walmart setzt Modetrends vor, bevor sie jemals passierenApr 12, 2025 am 11:51 AM

#1 Google gestartet Agent2Agent Die Geschichte: Es ist Montagmorgen. Als mit KI betriebener Personalvermittler arbeiten Sie intelligenter, nicht härter. Sie melden sich im Dashboard Ihres Unternehmens auf Ihrem Telefon an. Es sagt Ihnen, dass drei kritische Rollen bezogen, überprüft und geplant wurden

Generative KI trifft PsychobabbleGenerative KI trifft PsychobabbleApr 12, 2025 am 11:50 AM

Ich würde vermuten, dass du es sein musst. Wir alle scheinen zu wissen, dass Psychobabble aus verschiedenen Geschwätzern besteht, die verschiedene psychologische Terminologie mischen und oft entweder unverständlich oder völlig unsinnig sind. Alles was Sie tun müssen, um fo zu spucken

Der Prototyp: Wissenschaftler verwandeln Papier in PlastikDer Prototyp: Wissenschaftler verwandeln Papier in PlastikApr 12, 2025 am 11:49 AM

Laut einer neuen Studie, die diese Woche veröffentlicht wurde, wurden im Jahr 2022 nur 9,5% der im Jahr 2022 hergestellten Kunststoffe aus recycelten Materialien hergestellt. In der Zwischenzeit häufen sich Plastik weiter in Deponien - und Ökosystemen - um die Welt. Aber Hilfe ist unterwegs. Ein Team von Engin

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
3 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
4 Wochen vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

mPDF

mPDF

mPDF ist eine PHP-Bibliothek, die PDF-Dateien aus UTF-8-codiertem HTML generieren kann. Der ursprüngliche Autor, Ian Back, hat mPDF geschrieben, um PDF-Dateien „on the fly“ von seiner Website auszugeben und verschiedene Sprachen zu verarbeiten. Es ist langsamer und erzeugt bei der Verwendung von Unicode-Schriftarten größere Dateien als Originalskripte wie HTML2FPDF, unterstützt aber CSS-Stile usw. und verfügt über viele Verbesserungen. Unterstützt fast alle Sprachen, einschließlich RTL (Arabisch und Hebräisch) und CJK (Chinesisch, Japanisch und Koreanisch). Unterstützt verschachtelte Elemente auf Blockebene (wie P, DIV),

SecLists

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

EditPlus chinesische Crack-Version

EditPlus chinesische Crack-Version

Geringe Größe, Syntaxhervorhebung, unterstützt keine Code-Eingabeaufforderungsfunktion

SublimeText3 Linux neue Version

SublimeText3 Linux neue Version

SublimeText3 Linux neueste Version

Dreamweaver Mac

Dreamweaver Mac

Visuelle Webentwicklungstools