


Ce guide démontre la construction d'un chatbot alimenté par l'IA qui transforme les enregistrements audio (réunions, podcasts, interviews) en conversations interactives. Il exploite l'assemblage de transcription, QDRANT pour un stockage efficace de données et Deepseek-R1 via le cloud Sambanova pour des réponses intelligentes, créant un système de génération augmentée (RAG) de récupération. Le chatbot répond aux questions comme "Qu'est-ce que [le locuteur] a dit?" ou "Résumez ce segment". Une interface Web rationalisée permet aux utilisateurs de télécharger l'audio, d'afficher les transcriptions et d'interagir avec le chatbot en temps réel.
Caractéristiques clés et objectifs d'apprentissage:
- Transcription audio précise: utilisez l'API Assemblyai pour une transcription précise avec diarisation de l'enceinte, convertissant les conversations audio en données de texte structurées.
- Base de données vectorielle efficace: Utilisez QDRANT pour stocker et récupérer rapidement les intégres du contenu audio transcrit à l'aide de modèles de visage étreintes.
- Réponses de contexte: Implémentez le chiffon avec le modèle Deepseek-R1 (via le cloud Sambanova) pour générer des réponses de chatbot contextuellement pertinentes.
- Interface Web interactive: développez une application Web rationalisée pour que les utilisateurs puissent télécharger des fichiers audio, visualiser les transcriptions et s'engager avec le chatbot dynamiquement.
- Flux de travail de bout en bout: intégrer un flux de travail complet combinant le traitement audio, la gestion de la base de données vectorielle et la génération de réponse dirigée par l'IA pour une application de chat basée sur le son évolutive.
Cet article fait partie du blogathon des sciences des données.
Table des matières:
- Présentation de l'Assemblyai
- Sambanova Cloud a expliqué
- QDRANT: Une base de données vectorielle à grande vitesse
- Deepseek-R1: un modèle de langue puissant
- Construire le modèle de chiffon: Assemblyai et Deepseek-R1
- Condition préalable
- Mise en œuvre de la génération augmentée (RAG) de récupération
- Rationaliser le développement des applications
- Conclusion
- Questions fréquemment posées
Présentation de l'Assemblyai:
Assemblyai est un outil puissant pour extraire des informations exploitables de l'audio. Son moteur de la parole à texte parole axé sur l'IA fournit des transcriptions très précises, même la manipulation des accents et le bruit de fond efficacement. Cela le rend idéal pour transcrire des podcasts, analyser les appels clients ou générer des légendes vidéo.
Cloud Sambanova:
Sambanova Cloud vous permet d'exécuter de grands modèles open source comme Deepseek-R1 (paramètres 671b) nettement plus rapidement que les méthodes traditionnelles, éliminant la gestion complexe des infrastructures. Il utilise des unités de flux de données reconfigurables (RDU) pour des performances supérieures à travers:
- Stockage élevé en mémoire: élimine le rechargement constant du modèle.
- Flow de données optimisé: conçu pour les tâches à haut débit.
- Commutation de modèle instantanée: Commutation entre les modèles en microsecondes.
- Déploiement Simplified Deepseek-R1: Aucune configuration compliquée nécessaire.
- Formation unifiée / réglage fin: le tout dans une seule plate-forme.
QDRANT: Une base de données vectorielle à grande vitesse:
QDRANT est une base de données vectorielle remarquablement rapide optimisée pour les applications d'IA. Il excelle dans les recherches de similitude, ce qui le rend parfait pour les tâches comme les systèmes de recommandation, la recherche d'images et les chatbots. QDrant trouve rapidement les correspondances les plus proches pour des données complexes telles que les incorporations de texte ou les fonctionnalités visuelles.
Deepseek-R1: un modèle de langue puissant:
Deepseek-R1 est un modèle de langage avancé qui combine l'adaptabilité de type humain avec l'IA de pointe. Sa force réside dans sa capacité à comprendre le contexte, le ton et l'intention, produisant des réponses intuitives et précises. Il est très efficace pour diverses tâches de traitement du langage naturel, notamment la création de contenu, la traduction, le débogage du code et le résumé des rapports.
Construire le modèle de chiffon: Assemblyai et Deepseek-R1
Cette section détaille la construction du système de chiffon.
1. Prérequis:
Clone The Repository: git clone https://github.com/karthikponna/chat_with_audios.git
Créez et activez un environnement virtuel (instructions fournies pour MacOS / Linux et Windows).
Installer les dépendances: pip install -r requirements.txt
Configurez les variables d'environnement (touches API Assemblyai et Sambanova) dans un fichier .env
.
2. Implémentation de la génération augmentée (RAG) de récupération:
Le code (dans rag_code.py
) est structuré à l'aide de l'index de lama et comprend des fonctions pour:
- Traitement et intégration par lots: gère efficacement les grands ensembles de données.
- Interaction de la base de données QDRANT: configure et gère la base de données vectorielle QDRANT.
- Incorporation et récupération de requête: transforme les requêtes en intégres et récupère les résultats pertinents de QDRANT.
- Assistant Rag Smart Query: combine la récupération et le Sambanova Cloud LLM pour les réponses au contexte.
- Transcription audio avec assemblyai: transcrit des fichiers audio avec diarisation du haut-parleur.
(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)
3. Ration à rationaliser le développement des applications:
Le fichier app.py
crée une application Web Streamlit avec des fonctionnalités pour:
- Téléchargement de fichiers audio: les utilisateurs téléchargent des fichiers audio (MP3, WAV, M4A).
- Affichage de la transcription: montre la transcription générée par l'assemblage.
- Interaction Chatbot: permet aux utilisateurs de poser des questions sur le contenu audio.
- Gestion de l'État de session: maintient l'historique du chat et la mise en cache des fichiers.
(Les extraits de code détaillés sont omis pour la concision, mais la réponse originale fournit le code complet.)
Conclusion:
Ce projet intègre avec succès Assemblyai, Sambanova Cloud, Qdrant et Deepseek-R1 pour créer un chatbot audio puissant utilisant RAG. Le code fourni et les instructions permettent aux utilisateurs de créer et de déployer cette application. Le référentiel GitHub offre des opportunités d'exploration et de personnalisation plus approfondies.
Github Repo: https://www.php.cn/link/4803eb7efe3ec7031867d3f9fe9f4dc5
Questions fréquemment posées (FAQ):
(La réponse d'origine contient des réponses aux FAQ sur le chiffon, la personnalisation du modèle d'incorporation, la modification du modèle d'invite et l'utilisation de Qdrant.)
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

La crise de la capacité en plein essor sur le lieu de travail, exacerbé par l'intégration rapide de l'IA, exige un changement stratégique au-delà des ajustements progressifs. Ceci est souligné par les conclusions de la WTI: 68% des employés ont du mal avec la charge de travail, ce qui mène à Bur

Argument de la salle chinoise de John Searle: un défi à la compréhension de l'IA L'expérience de pensée de Searle se demande directement si l'intelligence artificielle peut vraiment comprendre la langue ou posséder une véritable conscience. Imaginez une personne, ignorant des chines

Les géants de la technologie chinoise tracent un cours différent dans le développement de l'IA par rapport à leurs homologues occidentaux. Au lieu de se concentrer uniquement sur les références techniques et les intégrations API, ils privilégient les assistants de l'IA "Ai-Ai" - AI T

MCP: Empower les systèmes AI pour accéder aux outils externes Le protocole de contexte du modèle (MCP) permet aux applications d'IA d'interagir avec des outils externes et des sources de données via des interfaces standardisées. Développé par anthropique et soutenu par les principaux fournisseurs d'IA, MCP permet aux modèles de langue et aux agents de découvrir des outils disponibles et de les appeler avec des paramètres appropriés. Cependant, il existe certains défis dans la mise en œuvre des serveurs MCP, y compris les conflits environnementaux, les vulnérabilités de sécurité et le comportement multiplateforme incohérent. L'article de Forbes "Le protocole de contexte du modèle d'Anthropic est une grande étape dans le développement des agents de l'IA", auteur: Janakiram Msvdocker résout ces problèmes par la conteneurisation. Doc construit sur l'infrastructure Docker Hub

Six stratégies employées par des entrepreneurs visionnaires qui ont exploité des technologies de pointe et un sens des affaires astucieux pour créer des entreprises très rentables et évolutives tout en gardant le contrôle. Ce guide est destiné aux aspirants entrepreneurs visant à construire un

Le nouvel outil Ultra HDR de Google Photos: un changeur de jeu pour l'amélioration de l'image Google Photos a introduit un puissant outil de conversion Ultra HDR, transformant des photos standard en images vibrantes et à grande échelle. Cette amélioration profite aux photographes

L'architecture technique résout les défis d'authentification émergents Le centre d'identité agentique aborde un problème que de nombreuses organisations ne découvrent que après avoir commencé à mettre en œuvre l'agent d'IA que les méthodes d'authentification traditionnelles ne sont pas conçues pour la machine.

(Remarque: Google est un client consultatif de mon entreprise, Moor Insights & Strategy.) AI: de l'expérience à la fondation d'entreprise Google Cloud Next 2025 a présenté l'évolution de l'IA de la fonctionnalité expérimentale à un composant central de la technologie d'entreprise, Stream


Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

Télécharger la version Mac de l'éditeur Atom
L'éditeur open source le plus populaire

MinGW - GNU minimaliste pour Windows
Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Version Mac de WebStorm
Outils de développement JavaScript utiles
