recherche
MaisonPériphériques technologiquesIAConstruisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Ce guide démontre la construction d'un chatbot alimenté par l'IA qui transforme les enregistrements audio (réunions, podcasts, interviews) en conversations interactives. Il exploite l'assemblage de transcription, QDRANT pour un stockage efficace de données et Deepseek-R1 via le cloud Sambanova pour des réponses intelligentes, créant un système de génération augmentée (RAG) de récupération. Le chatbot répond aux questions comme "Qu'est-ce que [le locuteur] a dit?" ou "Résumez ce segment". Une interface Web rationalisée permet aux utilisateurs de télécharger l'audio, d'afficher les transcriptions et d'interagir avec le chatbot en temps réel.

Caractéristiques clés et objectifs d'apprentissage:

  • Transcription audio précise: utilisez l'API Assemblyai pour une transcription précise avec diarisation de l'enceinte, convertissant les conversations audio en données de texte structurées.
  • Base de données vectorielle efficace: Utilisez QDRANT pour stocker et récupérer rapidement les intégres du contenu audio transcrit à l'aide de modèles de visage étreintes.
  • Réponses de contexte: Implémentez le chiffon avec le modèle Deepseek-R1 (via le cloud Sambanova) pour générer des réponses de chatbot contextuellement pertinentes.
  • Interface Web interactive: développez une application Web rationalisée pour que les utilisateurs puissent télécharger des fichiers audio, visualiser les transcriptions et s'engager avec le chatbot dynamiquement.
  • Flux de travail de bout en bout: intégrer un flux de travail complet combinant le traitement audio, la gestion de la base de données vectorielle et la génération de réponse dirigée par l'IA pour une application de chat basée sur le son évolutive.

Cet article fait partie du blogathon des sciences des données.

Table des matières:

  • Présentation de l'Assemblyai
  • Sambanova Cloud a expliqué
  • QDRANT: Une base de données vectorielle à grande vitesse
  • Deepseek-R1: un modèle de langue puissant
  • Construire le modèle de chiffon: Assemblyai et Deepseek-R1
    • Condition préalable
    • Mise en œuvre de la génération augmentée (RAG) de récupération
    • Rationaliser le développement des applications
  • Conclusion
  • Questions fréquemment posées

Présentation de l'Assemblyai:

Assemblyai est un outil puissant pour extraire des informations exploitables de l'audio. Son moteur de la parole à texte parole axé sur l'IA fournit des transcriptions très précises, même la manipulation des accents et le bruit de fond efficacement. Cela le rend idéal pour transcrire des podcasts, analyser les appels clients ou générer des légendes vidéo.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Cloud Sambanova:

Sambanova Cloud vous permet d'exécuter de grands modèles open source comme Deepseek-R1 (paramètres 671b) nettement plus rapidement que les méthodes traditionnelles, éliminant la gestion complexe des infrastructures. Il utilise des unités de flux de données reconfigurables (RDU) pour des performances supérieures à travers:

  • Stockage élevé en mémoire: élimine le rechargement constant du modèle.
  • Flow de données optimisé: conçu pour les tâches à haut débit.
  • Commutation de modèle instantanée: Commutation entre les modèles en microsecondes.
  • Déploiement Simplified Deepseek-R1: Aucune configuration compliquée nécessaire.
  • Formation unifiée / réglage fin: le tout dans une seule plate-forme.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

QDRANT: Une base de données vectorielle à grande vitesse:

QDRANT est une base de données vectorielle remarquablement rapide optimisée pour les applications d'IA. Il excelle dans les recherches de similitude, ce qui le rend parfait pour les tâches comme les systèmes de recommandation, la recherche d'images et les chatbots. QDrant trouve rapidement les correspondances les plus proches pour des données complexes telles que les incorporations de texte ou les fonctionnalités visuelles.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Deepseek-R1: un modèle de langue puissant:

Deepseek-R1 est un modèle de langage avancé qui combine l'adaptabilité de type humain avec l'IA de pointe. Sa force réside dans sa capacité à comprendre le contexte, le ton et l'intention, produisant des réponses intuitives et précises. Il est très efficace pour diverses tâches de traitement du langage naturel, notamment la création de contenu, la traduction, le débogage du code et le résumé des rapports.

Construisez un chiffon audio avec Assemblyai, Qdrant et Deepseek-R1

Construire le modèle de chiffon: Assemblyai et Deepseek-R1

Cette section détaille la construction du système de chiffon.

1. Prérequis:

Clone The Repository: git clone https://github.com/karthikponna/chat_with_audios.git

Créez et activez un environnement virtuel (instructions fournies pour MacOS / Linux et Windows).

Installer les dépendances: pip install -r requirements.txt

Configurez les variables d'environnement (touches API Assemblyai et Sambanova) dans un fichier .env .

2. Implémentation de la génération augmentée (RAG) de récupération:

Le code (dans rag_code.py ) est structuré à l'aide de l'index de lama et comprend des fonctions pour:

  • Traitement et intégration par lots: gère efficacement les grands ensembles de données.
  • Interaction de la base de données QDRANT: configure et gère la base de données vectorielle QDRANT.
  • Incorporation et récupération de requête: transforme les requêtes en intégres et récupère les résultats pertinents de QDRANT.
  • Assistant Rag Smart Query: combine la récupération et le Sambanova Cloud LLM pour les réponses au contexte.
  • Transcription audio avec assemblyai: transcrit des fichiers audio avec diarisation du haut-parleur.

(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)

3. Ration à rationaliser le développement des applications:

Le fichier app.py crée une application Web Streamlit avec des fonctionnalités pour:

  • Téléchargement de fichiers audio: les utilisateurs téléchargent des fichiers audio (MP3, WAV, M4A).
  • Affichage de la transcription: montre la transcription générée par l'assemblage.
  • Interaction Chatbot: permet aux utilisateurs de poser des questions sur le contenu audio.
  • Gestion de l'État de session: maintient l'historique du chat et la mise en cache des fichiers.

(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)

Conclusion:

Ce projet intègre avec succès Assemblyai, Sambanova Cloud, Qdrant et Deepseek-R1 pour créer un chatbot audio puissant utilisant RAG. Le code fourni et les instructions permettent aux utilisateurs de créer et de déployer cette application. Le référentiel GitHub offre des opportunités d'exploration et de personnalisation plus approfondies.

Github Repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4dc5

Questions fréquemment posées (FAQ):

(La réponse d'origine contient des réponses aux FAQ sur le chiffon, la personnalisation du modèle d'incorporation, la modification du modèle d'invite et l'utilisation de Qdrant.)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Microsoft Work Trend Index 2025 montre une souche de capacité de travailMicrosoft Work Trend Index 2025 montre une souche de capacité de travailApr 24, 2025 am 11:19 AM

La crise de la capacité en plein essor sur le lieu de travail, exacerbé par l'intégration rapide de l'IA, exige un changement stratégique au-delà des ajustements progressifs. Ceci est souligné par les conclusions de la WTI: 68% des employés ont du mal avec la charge de travail, ce qui mène à Bur

L'IA peut-elle comprendre? L'argument de la salle chinoise dit non, mais est-ce vrai?L'IA peut-elle comprendre? L'argument de la salle chinoise dit non, mais est-ce vrai?Apr 24, 2025 am 11:18 AM

Argument de la salle chinoise de John Searle: un défi à la compréhension de l'IA L'expérience de pensée de Searle se demande directement si l'intelligence artificielle peut vraiment comprendre la langue ou posséder une véritable conscience. Imaginez une personne, ignorant des chines

Les assistants de l'IA «intelligents» de la Chine font écho aux défauts de confidentialité de Microsoft RappelLes assistants de l'IA «intelligents» de la Chine font écho aux défauts de confidentialité de Microsoft RappelApr 24, 2025 am 11:17 AM

Les géants de la technologie chinoise tracent un cours différent dans le développement de l'IA par rapport à leurs homologues occidentaux. Au lieu de se concentrer uniquement sur les références techniques et les intégrations API, ils privilégient les assistants de l'IA "Ai-Ai" - AI T

Docker apporte un flux de travail de conteneur familier aux modèles AI et aux outils MCPDocker apporte un flux de travail de conteneur familier aux modèles AI et aux outils MCPApr 24, 2025 am 11:16 AM

MCP: Empower les systèmes AI pour accéder aux outils externes Le protocole de contexte du modèle (MCP) permet aux applications d'IA d'interagir avec des outils externes et des sources de données via des interfaces standardisées. Développé par anthropique et soutenu par les principaux fournisseurs d'IA, MCP permet aux modèles de langue et aux agents de découvrir des outils disponibles et de les appeler avec des paramètres appropriés. Cependant, il existe certains défis dans la mise en œuvre des serveurs MCP, y compris les conflits environnementaux, les vulnérabilités de sécurité et le comportement multiplateforme incohérent. L'article de Forbes "Le protocole de contexte du modèle d'Anthropic est une grande étape dans le développement des agents de l'IA", auteur: Janakiram Msvdocker résout ces problèmes par la conteneurisation. Doc construit sur l'infrastructure Docker Hub

Utilisation de 6 stratégies intelligentes de rue AI pour construire une startup d'un milliard de dollarsUtilisation de 6 stratégies intelligentes de rue AI pour construire une startup d'un milliard de dollarsApr 24, 2025 am 11:15 AM

Six stratégies employées par des entrepreneurs visionnaires qui ont exploité des technologies de pointe et un sens des affaires astucieux pour créer des entreprises très rentables et évolutives tout en gardant le contrôle. Ce guide est destiné aux aspirants entrepreneurs visant à construire un

Google Photos Update déverrouille Superbe Ultra HDR pour toutes vos photosGoogle Photos Update déverrouille Superbe Ultra HDR pour toutes vos photosApr 24, 2025 am 11:14 AM

Le nouvel outil Ultra HDR de Google Photos: un changeur de jeu pour l'amélioration de l'image Google Photos a introduit un puissant outil de conversion Ultra HDR, transformant des photos standard en images vibrantes et à grande échelle. Cette amélioration profite aux photographes

Descope construit un cadre d'authentification pour l'intégration des agents AIDescope construit un cadre d'authentification pour l'intégration des agents AIApr 24, 2025 am 11:13 AM

L'architecture technique résout les défis d'authentification émergents Le centre d'identité agentique aborde un problème que de nombreuses organisations ne découvrent que après avoir commencé à mettre en œuvre l'agent d'IA que les méthodes d'authentification traditionnelles ne sont pas conçues pour la machine.

Google Cloud prochain 2025 et l'avenir connecté du travail moderneGoogle Cloud prochain 2025 et l'avenir connecté du travail moderneApr 24, 2025 am 11:12 AM

(Remarque: Google est un client consultatif de mon entreprise, Moor Insights & Strategy.) AI: de l'expérience à la fondation d'entreprise Google Cloud Next 2025 a présenté l'évolution de l'IA de la fonctionnalité expérimentale à un composant central de la technologie d'entreprise, Stream

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

MinGW - GNU minimaliste pour Windows

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles