Maison >Périphériques technologiques >IA >Comment développer la reconnaissance vocale
La compréhension approfondie du langage naturel grâce à l'utilisation de la technologie d'apprentissage en profondeur a toujours été au centre de l'attention des gens. Vous n'avez pas besoin de le rechercher pour écouter de la musique, vous n'avez pas besoin d'utiliser vos mains pour allumer les lumières et le climatiseur peut comprendre votre voix... Ces scènes sont montrées dans de nombreuses œuvres cinématographiques et télévisuelles. , et ils représentent également le concept de « vie intelligente » dans l'esprit de nombreuses personnes. Sur cette base, avec la montée en puissance du développement de l'intelligence artificielle, le traitement du langage naturel est devenu un champ de bataille pour les grandes entreprises et les instituts de recherche scientifique.
À l'heure actuelle, le secteur de l'interaction vocale a rassemblé des géants de l'Internet, des sociétés de matériel bien connues, des plateformes de commerce électronique, des fabricants d'appareils électroménagers traditionnels et diverses startups d'intelligence artificielle, en particulier les produits d'interaction vocale représentés par des haut-parleurs intelligents ces dernières années. Sa popularité au pays et à l'étranger a grandement stimulé l'application et le développement de la technologie d'interaction vocale.
Ces derniers temps, le matériel de maison intelligente le plus populaire est sans aucun doute le haut-parleur Xiaomi AI. Une fois ce produit lancé, il a eu de grandes répercussions sur le marché. Il a été qualifié par beaucoup de « l'enceinte avec la meilleure expérience interactive », de « la personne responsable dans l'industrie des enceintes intelligentes », « actuellement du matériel intelligent le plus populaire ». médias... De l'avis de l'éditeur, les haut-parleurs Xiaomi AI sont excellents, oui, mais pas au point de se vanter. À en juger par l'expérience d'utilisation spécifique des personnes autour de moi, ses capacités de reconnaissance vocale ne sont pas particulièrement remarquables et ne sont pas très différentes des produits similaires grand public actuellement sur le marché. Son plus grand avantage réside dans la chaîne écologique. Grâce aux haut-parleurs Xiaomi AI, il peut contrôler les lampes de bureau Xiaomi, les robots de balayage Xiaomi, les ventilateurs de sol Xiaomi et d'autres équipements de mobilier de soutien. Il ne fait aucun doute que cela rapprochera les gens d’une vie intelligente.
Dans le domaine de l'automobile et des appareils mobiles intelligents, les fonctions d'interaction vocale sont devenues très populaires. Lorsqu'ils conduisent, les gens n'ont souvent pas de temps à perdre et ne devraient pas utiliser leurs mains pour faire fonctionner leur téléphone portable. À l'heure actuelle, la voix dans la voiture est devenue une nécessité et une fonctionnalité standard de l'Internet des véhicules. À l’ère du battage médiatique intense autour de l’interconnexion intelligente et de la conduite sans conducteur, les nouvelles voitures qui ne disposent pas de technologies noires comme la reconnaissance vocale semblent trop gênées pour les utiliser. Le système SYNC de Ford, un système de communication et de divertissement multimédia embarqué spécialement équipé pour les téléphones mobiles et les lecteurs multimédias numériques, est actuellement un exemple réussi d'utilisation de la technologie d'interaction vocale dans les systèmes embarqués et a été largement utilisé dans plusieurs séries de véhicules Ford. . Après que le géant de l'Internet Apple a lancé l'application d'assistant vocal intelligent Siri sur son iPhone 4S, Google a également lancé le service de recherche vocale intelligente et de questions et réponses GoogleNow dans son système d'exploitation pour smartphone Android. Microsoft a également appliqué la technologie vocale à Windows Phone, et Samsung a également lancé. Bixby en temps voulu.
Dans le domaine financier. La technologie de reconnaissance vocale a également sa place. Récemment, la China Construction Bank a ouvert une succursale de services automatisés dans le district de Huangpu, à Shanghai, où des robots servent les clients. Le robot est équipé d'un logiciel de reconnaissance faciale, qui peut répondre à la plupart des questions des clients et résoudre la plupart des besoins commerciaux des banques ordinaires. Il est également équipé de services d'assistance manuelle et d'autres services professionnels pour répondre aux besoins personnalisés. Les clients sont reçus par des robots qui utilisent des fonctions de reconnaissance vocale pour communiquer avec les gens et répondre aux questions des clients. Ils peuvent également effectuer la plupart des tâches que les services sociaux peuvent effectuer, notamment ouvrir des comptes, transférer de l’argent et investir.
De plus, dans le nouveau domaine de la vente au détail, l'application de la technologie vocale intelligente est également en constante expansion. Par exemple, le 18 décembre 2017, iFlytek et Red Star Macalline ont annoncé un plan de coopération stratégique. À l'avenir, le robot de guide d'achat intelligent « Meimei » développé par iFlytek sera lancé dans les magasins Red Star Macalline à l'échelle nationale.
En plus de l'interaction vocale, la synthèse vocale est également un sujet brûlant dans la technologie actuelle de reconnaissance vocale. Au début, cette fonction était la préférée des journalistes. L'utilisation de cette fonction pour organiser des manuscrits d'interviews et de discours peut grandement améliorer l'efficacité du travail. De nos jours, cette fonction est acceptée par les gens ordinaires et peut être utilisée par les personnes âgées et les jeunes. souffrant de paresse et de cancer. Cette fonction remplace la frappe.
Aujourd'hui, l'afflux de capitaux, le soutien politique et l'expansion répétée du marché ont rendu la technologie vocale de plus en plus mature, et le marché mondial de la voix a également inauguré une période de développement dorée pour la mise en œuvre d'applications. Selon les statistiques pertinentes, la taille de l'industrie de la voix intelligente en 2016 était proche de la barre des 6 milliards de yuans et dépassera les 10 milliards de yuans en 2017, soit une augmentation d'environ 69 % d'une année sur l'autre.
Contrairement à la prolifération de la reconnaissance vocale dans de nombreux domaines, le développement de la technologie de reconnaissance vocale est assez lent. Dans cette situation, la technologie de reconnaissance vocale a rencontré de nombreuses difficultés dans les applications pratiques. des questions ont été soulevées.
De nombreuses entreprises affirment désormais que leur taux de reconnaissance vocale a atteint 97 %, voire 98 %, mais dans les applications réelles, les résultats ne sont pas satisfaisants. Pour donner un exemple plus convaincant, le système chinois de reconnaissance vocale développé par l'IBMT.JWatson Research Institute s'est classé premier dans le concours parrainé par la DARPA aux États-Unis pendant trois années consécutives. Lorsque le système a reconnu le programme « News Network » de CCTV. le taux d'erreur était inférieur à 5 %, mais lors de l'identification d'autres contenus, l'écart est très grand. Dans les applications pratiques, le taux de reconnaissance est principalement affecté par les facteurs suivants :
Pour la reconnaissance vocale chinoise, le dialecte ou l'accent réduira le taux de reconnaissance.
Un bruit fort dans les lieux publics a un grand impact sur l'effet de reconnaissance. Même dans un environnement de laboratoire, taper sur le clavier et déplacer le microphone deviendra un bruit de fond.
En interrompant les questions, si les gens font une pause en parlant, la machine ne pourra pas bien se connecter au contexte pour rendre le sens fluide.
Ici, il y a aussi la question du « langage oral ». Cela implique à la fois la compréhension du langage naturel et l’acoustique. L'objectif ultime de la technologie de reconnaissance vocale est de permettre aux utilisateurs d'avoir une « conversation homme-machine » aussi naturelle qu'une « conversation interhumaine ». Cependant, une fois que l'utilisateur effectue une saisie vocale en parlant à un humain, la grammaire de la langue parlée n'est pas standardisée et l'ordre anormal des mots entraînera des difficultés d'analyse et de compréhension sémantiques.
Auparavant, certaines personnes ont souligné que des problèmes tels que l'accent et le nouveau vocabulaire peuvent être résolus grâce à la collecte de données dans des applications pratiques de la technologie de reconnaissance vocale. À mesure que la quantité de données augmente, ce problème peut être résolu.
D'autres problèmes tels que « l'interruption » nécessitent divers modèles d'apprentissage profond, tels que DNN, CNN, BLSTM (réseau neuronal bidirectionnel à mémoire à long et à court terme), etc., ainsi que de nouveaux algorithmes pour les résoudre progressivement.
L'utilisation de la technologie nécessite souvent un processus itératif. Elle doit d'abord être en ligne, puis collecter des données sur la scène pour évaluer, optimiser le modèle et améliorer l'expérience utilisateur. Il faut plusieurs itérations pour obtenir les meilleurs résultats. D'autres technologies d'IA sont similaires. Aujourd’hui, de nombreux utilisateurs de la technologie de l’IA idéalisent facilement les capacités de la technologie et estiment qu’ils devraient voir des résultats immédiats dès leur introduction. Lorsque vous voyez que les résultats réels ne sont pas satisfaisants, vous ressentirez un grand écart, une déception et vous abandonnerez. Il est vrai que la technologie vocale intelligente a atteint le niveau d'application GF, mais lorsqu'elle sera réellement mise en œuvre, nous devons pleinement comprendre les difficultés qui peuvent être rencontrées et être mentalement préparés à une bataille prolongée.
On peut prédire qu'au cours des cinq à dix dernières années, l'application des systèmes de reconnaissance vocale sera plus répandue. Une variété de produits de systèmes de reconnaissance vocale apparaîtront sur le marché. Les gens adapteront également leurs modèles de parole pour s’adapter à une variété de systèmes de reconnaissance. Il n'est pas possible de construire un système de reconnaissance vocale comparable à celui des humains à court terme. La construction d'un tel système reste un grand défi pour l'humanité. Nous ne pouvons qu'avancer étape par étape vers l'amélioration des systèmes de reconnaissance vocale. Il est difficile de prédire quand un système de reconnaissance vocale aussi complet que celui d’un humain pourra être construit. Tout comme dans les années 1960, qui aurait pu prédire que la technologie VLSI actuelle aurait un tel impact sur notre société ?
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!