Créez une application Web Speech-to-Text avec Whisper, React et Node-js tutoriel-php.cn

Maison

interface Web

js tutoriel

Créez une application Web Speech-to-Text avec Whisper, React et Node

Christopher Nolan

Feb 11, 2025 am 08:23 AM

Cet article démontre la construction d'une application de discours sur le texte en tirant parti de l'API Whisper d'Openai, React, Node.js et Ffmpeg. L'application accepte l'entrée audio, la traite à l'aide de Whisper et affiche la transcription résultante. La précision de Whisper, même avec des anglophones non natifs, est mis en évidence.

Caractéristiques de clé:

Transcription précise: Emploie le chuchotement d'Openai pour la conversion de la parole de la parole à haute précision, même de la gestion des accents.
react & node.js Intégration: utilise une pile JavaScript complète pour le développement et le déploiement transparents.
Gestion sécurisée des clés de l'API: utilise des variables d'environnement pour le stockage de clés de l'API OpenAI sûr.
La coupe audio avec FFMPEG: permet aux utilisateurs de sélectionner des segments audio spécifiques pour la transcription, l'amélioration de l'efficacité.
Interface conviviale: offre une expérience utilisateur propre et intuitive avec des fonctionnalités telles que les téléchargements de fichiers et un sélecteur de temps.

Aperçu technique:

L'architecture d'application se compose d'un frontend React et d'un backend Node.js. Le frontend gère l'interaction utilisateur (téléchargement de fichiers, sélection de temps), tandis que le backend gère la communication de l'API avec le traitement des chuchotements et audio d'Openai à l'aide de FFMPEG. Le backend utilise dotenv, cors, multer, form-data, et axios pour la gestion des variables d'environnement, le partage de ressources croisées, les téléchargements de fichiers, la gestion des données du formulaire et les demandes d'API, respectivement. L'intégration ffmpeg, facilitée par fluent-ffmpeg, ffmetadata et ffmpeg-static, permet une coupe audio précise.

Configuration du projet:

Le projet est structuré avec des répertoires séparés frontend et backend. Le frontend React est initialisé à l'aide de create-react-app, et les packages nécessaires (axios, react-dropzone, react-select, react-toastify) sont installés. Le backend Node.js utilise des express.js et des packages (express, dotenv, cors, multer, form-data, axios, fluent-ffmpeg, ffmetadata, ffmpeg-static, nodemon) sont installés pour les fonctionnalités du serveur, l'interaction API et l'intégration FFMPEG.

Intégration de chuchotement:

Une route postale (/api/transcribe) gère les téléchargements audio, convertit l'audio en flux lisible, l'envoie à l'API Whisper et renvoie la transcription en JSON. La gestion des erreurs et les meilleures pratiques de sécurité sont mises en œuvre.

Intégration FFMPEG:

FFMPEG est utilisé pour réduire les segments audio en fonction des temps de début et de fin spécifiés par l'utilisateur. Une fonction utilitaire convertit le temps en secondes pour le traitement FFMPEG. L'audio coupé est ensuite envoyé à l'API Whisper.

Développement frontal:

Un composant personnalisé TimePicker, construit à l'aide de react-select, permet aux utilisateurs de sélectionner des heures de démarrage et de fin précises pour la transcription. Le composant d'application principal gère les téléchargements de fichiers, communique avec l'API backend et affiche les résultats de la transcription. Les notifications de toast fournissent des commentaires à l'utilisateur.

Déploiement:

L'article fournit des liens vers le frontend complet et les référentiels de code backend sur GitHub, facilitant le déploiement facile et la personnalisation plus approfondie.

Questions fréquemment posées (FAQ): L'article se termine par une section complète de la FAQ concernant les questions courantes sur le chuchotement, son intégration avec React et Node.js, précision, gestion des erreurs, coût et possibilités de contribution.

Build a Speech-to-text Web App with Whisper, React and Node

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

C et JavaScript: la connexion expliquéeApr 23, 2025 am 12:07 AM

C et JavaScript réalisent l'interopérabilité via WebAssembly. 1) Le code C est compilé dans le module WebAssembly et introduit dans un environnement JavaScript pour améliorer la puissance de calcul. 2) Dans le développement de jeux, C gère les moteurs de physique et le rendu graphique, et JavaScript est responsable de la logique du jeu et de l'interface utilisateur.

Des sites Web aux applications: les diverses applications de JavaScriptApr 22, 2025 am 12:02 AM

JavaScript est largement utilisé dans les sites Web, les applications mobiles, les applications de bureau et la programmation côté serveur. 1) Dans le développement de sites Web, JavaScript exploite DOM avec HTML et CSS pour réaliser des effets dynamiques et prend en charge des cadres tels que JQuery et React. 2) Grâce à la réactnative et ionique, JavaScript est utilisé pour développer des applications mobiles multiplateformes. 3) Le cadre électronique permet à JavaScript de créer des applications de bureau. 4) Node.js permet à JavaScript d'exécuter le côté du serveur et prend en charge les demandes simultanées élevées.

Python vs JavaScript: cas d'utilisation et applications comparéesApr 21, 2025 am 12:01 AM

Python est plus adapté à la science et à l'automatisation des données, tandis que JavaScript est plus adapté au développement frontal et complet. 1. Python fonctionne bien dans la science des données et l'apprentissage automatique, en utilisant des bibliothèques telles que Numpy et Pandas pour le traitement et la modélisation des données. 2. Python est concis et efficace dans l'automatisation et les scripts. 3. JavaScript est indispensable dans le développement frontal et est utilisé pour créer des pages Web dynamiques et des applications à une seule page. 4. JavaScript joue un rôle dans le développement back-end via Node.js et prend en charge le développement complet de la pile.

Le rôle de C / C dans les interprètes et compilateurs JavaScriptApr 20, 2025 am 12:01 AM

C et C jouent un rôle essentiel dans le moteur JavaScript, principalement utilisé pour implémenter des interprètes et des compilateurs JIT. 1) C est utilisé pour analyser le code source JavaScript et générer une arborescence de syntaxe abstraite. 2) C est responsable de la génération et de l'exécution de bytecode. 3) C met en œuvre le compilateur JIT, optimise et compile le code de point chaud à l'exécution et améliore considérablement l'efficacité d'exécution de JavaScript.

JavaScript en action: Exemples et projets du monde réelApr 19, 2025 am 12:13 AM

L'application de JavaScript dans le monde réel comprend un développement frontal et back-end. 1) Afficher les applications frontales en créant une application de liste TODO, impliquant les opérations DOM et le traitement des événements. 2) Construisez RestulAPI via Node.js et Express pour démontrer les applications back-end.

Javascript et le web: fonctionnalité de base et cas d'utilisationApr 18, 2025 am 12:19 AM

Les principales utilisations de JavaScript dans le développement Web incluent l'interaction client, la vérification du formulaire et la communication asynchrone. 1) Mise à jour du contenu dynamique et interaction utilisateur via les opérations DOM; 2) La vérification du client est effectuée avant que l'utilisateur ne soumette les données pour améliorer l'expérience utilisateur; 3) La communication de rafraîchissement avec le serveur est réalisée via la technologie AJAX.

Comprendre le moteur JavaScript: détails de l'implémentationApr 17, 2025 am 12:05 AM

Comprendre le fonctionnement du moteur JavaScript en interne est important pour les développeurs car il aide à écrire du code plus efficace et à comprendre les goulots d'étranglement des performances et les stratégies d'optimisation. 1) Le flux de travail du moteur comprend trois étapes: analyse, compilation et exécution; 2) Pendant le processus d'exécution, le moteur effectuera une optimisation dynamique, comme le cache en ligne et les classes cachées; 3) Les meilleures pratiques comprennent l'évitement des variables globales, l'optimisation des boucles, l'utilisation de const et de locations et d'éviter une utilisation excessive des fermetures.

Python vs JavaScript: la courbe d'apprentissage et la facilité d'utilisationApr 16, 2025 am 12:12 AM

Python convient plus aux débutants, avec une courbe d'apprentissage en douceur et une syntaxe concise; JavaScript convient au développement frontal, avec une courbe d'apprentissage abrupte et une syntaxe flexible. 1. La syntaxe Python est intuitive et adaptée à la science des données et au développement back-end. 2. JavaScript est flexible et largement utilisé dans la programmation frontale et côté serveur.

See all articles