Maison  >  Article  >  développement back-end  >  Application de transcription IA

Application de transcription IA

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-11-17 10:43:03632parcourir

Ceci est une soumission pour le AssemblyAI Challenge : Sophisticated Speech-to-Text.

Ce que j'ai construit

J'ai construit une page Web facile à utiliser, avec un design réactif afin qu'elle puisse être utilisée sur différents appareils comme les ordinateurs portables, les téléphones portables, les tablettes, l'application est 100% fonctionnelle, contient une entrée pour télécharger le fichier (audio) que vous souhaitez transcrire, un bouton pour lancer la transcription, une fois que vous aurez cliqué sur ce bouton la transcription démarrera automatiquement et le texte transcrit apparaîtra juste en dessous.

L'application Web est déployée pour que tout le monde puisse y accéder et l'utiliser, depuis n'importe quel appareil, de n'importe où, en résumé, j'ai une application Web prête à l'emploi pour transcrire les audios en utilisant le modèle Universal -2 pour le traitement de l'audio.

Démo

Le code est sous licence libre MIT, vous pouvez accéder au dépôt GitHub ici.
L'application Web est également déployée sur Render, ce qui signifie qu'elle a Convivialité et accessibilité, vous pouvez accéder et utiliser l'application ici.

L'application est 100% fonctionnelle, vous pouvez la voir sur la capture d'écran ci-dessous.

AI Transcriptor App

De plus, l'interface est intuitive pour toute personne ayant ou non de l'expérience dans l'utilisation des technologies, vous pouvez le voir sur cette image.

AI Transcriptor App

La conception de l'application est réactive, accessible et utilisée depuis n'importe quel appareil, ce qui signifie qu'elle offre une bonne expérience utilisateur et accessibilité, vous pouvez la vérifier sur ces captures d'écran :

AI Transcriptor App

AI Transcriptor App

Voyage

Sur la pile technologique, j'ai utilisé le HTML, CSS et JS traditionnels pour créer une interface Web avec Utilisation et expérience utilisateur. Dans le backend, j'ai utilisé Flask pour définir les itinéraires et implémenter la logique, j'ai utilisé le Universal-2, AssamblyAI's Model pour transcrire l'audio, en termes simples, le Flask reçoit l'audio, l'envoie à l'API Assembly AI (la connexion est établie via la clé API), l'API traite le audio et envoyer 200 réponses d'état.

Problèmes possibles

Flask enregistre l'audio dans le dossier de téléchargement, donc lorsqu'il est déployé sur Render, l'hôte n'a pas accès à l'enregistrement et à l'accès au fichier dans le répertoire, ce qui peut entraîner des erreurs et la page ne sera pas traduite, pour résoudre ce problème, est nécessaire pour utiliser le stockage cloud pour enregistrer l'audio et y accéder depuis le cloud et non pour le répertoire de téléchargement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn