Maison >Périphériques technologiques >IA >ChatGPT qui peut comprendre la parole est là : 10 heures d'enregistrement ajoutées, demandez ce que vous voulez
Les grands modèles linguistiques (LLM) changent les attentes des utilisateurs dans tous les secteurs. Cependant, la création de produits d’IA générative centrés sur la parole humaine reste difficile car les fichiers audio posent un défi aux grands modèles de langage.
Un défi clé dans l'application de LLM aux fichiers audio est que LLM est limité par sa fenêtre contextuelle. Avant qu'un fichier audio puisse être introduit dans LLM, il doit être converti en texte. Plus le fichier audio est long, plus le défi technique consistant à contourner les limitations de la fenêtre contextuelle de LLM est grand. Mais dans des scénarios de travail, nous avons souvent besoin du LLM pour nous aider à traiter des fichiers vocaux très longs, comme extraire le contenu principal d'un enregistrement de réunion de plusieurs heures, ou trouver la réponse à une certaine question lors d'un entretien...
Récemment, AssemblyAI, société d’IA de reconnaissance vocale, a lancé un nouveau modèle appelé LeMUR. Tout comme ChatGPT traite des dizaines de pages de texte PDF, LeMUR peut transcrire et traiter jusqu'à 10 heures d'enregistrements, puis aider les utilisateurs à résumer le contenu principal du discours et à répondre aux questions saisies par l'utilisateur.
Adresse d'essai : https://www.assemblyai.com/playground/v2/source
LeMUR exploite de grands modèles de langage pour comprendre la parole reconnue (en utilisant de grands modèles de langage pour comprendre Recognized Speech) est un nouveau cadre qui applique un LLM puissant à la parole transcrite. Avec une seule ligne de code (via le SDK Python d'AssemblyAI), LeMUR peut traiter rapidement la transcription de jusqu'à 10 heures de contenu audio, le convertissant efficacement en environ 150 000 jetons. En revanche, les LLM vanille disponibles dans le commerce ne peuvent accueillir que jusqu'à 8K, soit environ 45 minutes d'audio transcrit dans les contraintes de leur fenêtre contextuelle.
Afin de réduire la complexité de l'application du LLM aux fichiers audio transcrits, le pipeline de LeMUR comprend principalement une segmentation intelligente, une base de données vectorielles rapide et plusieurs étapes de raisonnement (telles que des invites de chaîne de pensée et une auto-évaluation), comme indiqué ci-dessous :
Figure 1 : L'architecture de LeMUR permet aux utilisateurs d'envoyer des fichiers de transcription audio longs et/ou multiples dans LLM avec un seul appel API.
À l'avenir, LeMUR devrait être largement utilisé dans le service client et dans d'autres domaines.
LeMUR ouvre de nouvelles possibilités étonnantes que je ne pensais pas possibles il y a quelques années à peine. C'est vraiment incroyable de pouvoir extraire sans effort des informations précieuses, telles que la détermination de la meilleure action et la discernement des résultats d'un appel, tels que les ventes, les rendez-vous ou l'objet de l'appel. —— Ryan Johnson, directeur des produits chez CallRail, une société de technologie de services de suivi et d'analyse des appels
Appliquer LLM à plusieurs textes audio
LeMUR permet aux utilisateurs d'obtenir des commentaires sur le traitement LLM sur plusieurs fichiers audio en même temps, ainsi que jusqu'à 10 heures de résultats de transcription vocale et la longueur du texte converti. jeton Jusqu'à 150K.
Sortie fiable et sécurisée
Étant donné que LeMUR inclut des mesures de sécurité et des filtres de contenu, il fournira aux utilisateurs des réponses de LLM qui sont moins susceptibles d'être nuisibles ou biaisées.
Contexte supplémentaire
Pendant l'inférence, il permet d'ajouter des informations contextuelles supplémentaires que LLM peut exploiter pour fournir des résultats personnalisés et plus précis lors de la génération de sortie.
Intégration modulaire et rapide
LeMUR renvoie toujours des données structurées sous une forme JSON traitable. Les utilisateurs peuvent personnaliser davantage le format de sortie de LeMUR pour garantir que la réponse donnée par le LLM est dans le format attendu par leur prochain élément de logique métier (par exemple, convertir la réponse en une valeur booléenne). Dans ce processus, les utilisateurs n'ont plus besoin d'écrire du code spécifique pour traiter la sortie de LLM.
Selon le lien de test fourni par AssemblyAI, Machine Heart a testé LeMUR.
L'interface de LeMUR prend en charge deux méthodes de saisie de fichiers : le téléchargement de fichiers audio et vidéo ou le collage de liens Web.
Nous utilisons les données d'une interview récente de Hinton comme entrée pour tester les performances de LeMUR.
Après le téléchargement, le système nous demande d'attendre un moment car il doit d'abord convertir la parole en texte.
L'interface après transcription est la suivante :
Sur le côté droit de la page, on peut demander à LeMUR de résumer l'interview ou de répondre à des questions. LeMUR peut fondamentalement accomplir la tâche facilement :
Si la voix à traiter est un discours ou une réponse du service client, vous pouvez également demander à LeMUR des suggestions d'amélioration.
Cependant, LeMUR ne semble pas encore prendre en charge le chinois. Les lecteurs intéressés peuvent l’essayer.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!