Maison >Périphériques technologiques >IA >Siri devient de plus en plus « populaire ». Quelles avancées y aura-t-il dans le domaine de la voix intelligente à l'avenir ?

Siri devient de plus en plus « populaire ». Quelles avancées y aura-t-il dans le domaine de la voix intelligente à l'avenir ?

王林avant: 2023-05-06 13:07:061304parcourir

Pour l'interaction homme-machine, comment faire en sorte que les machines aient une bonne audition est un objectif poursuivi sans relâche dans le domaine de l'IA ces dernières années. Vers 2009, les applications des modèles d'apprentissage profond ont commencé à quitter le monde universitaire, et la technologie vocale intelligente représentée par l'éveil, la reconnaissance, l'amélioration et la synthèse de la parole a également progressivement mûri.

Un premier exemple typique est la naissance de Siri en 2011. La voix intelligente est devenue une nouvelle avancée dans la communication et l’interaction entre les humains et les machines. Après plus de dix ans de développement, les questions et réponses homme-machine de type « Hey, Siri » ne se limitent plus aux terminaux mobiles, elles sont entrées dans des milliers de foyers et sont largement utilisées dans divers scénarios : haut-parleurs intelligents pour compagnons de maison, Tmall Génie pour des achats en ligne pratiques, une traduction simultanée lors de réunions, des assistants de navigation vocale en voiture en voyage, etc.

Alors que de plus en plus de sociétés Internet et de fabricants en amont se déploient activement dans le domaine de la voix intelligente, des produits tels que le service client vocal intelligent, les applications d'IA conversationnelles et les assistants virtuels d'IA ont encore amélioré la qualité, et la réponse à la voix est plus naturel. , comprenez le problème avec plus de précision et ayez vos propres « petites émotions ».

À l'ère de la numérisation, la tendance à l'interconnexion de tout est imparable. La voix intelligente, en tant qu’interface clé pour l’interaction homme-machine actuelle, se trouve dans une période de profonde intégration et de collision avec l’économie réelle. Avec le développement et l'expansion des scénarios d'application, nous avons également été confrontés à de nombreux problèmes difficiles, tels que la manière d'identifier l'identité du locuteur, la manière d'identifier les dialectes, la manière d'éliminer l'ambiguïté, etc., qui sont les derniers points chauds de la recherche.

Derrière la maturité d'une technologie, il y a souvent des potentiels, notamment sa capacité à innover dans des applications pratiques et sa direction d'évolution plus potentielle. En ce qui concerne la prochaine étape, la technologie vocale intelligente connaîtra également de nouvelles tendances d'évolution. Par exemple : les puces vocales IA profondément intégrées peuvent-elles remplacer le modèle d'exécution du modèle cloud ? La recherche innovante sur la fusion multimodale, l’apprentissage non supervisé et l’intégration croisée des disciplines du cerveau peut-elle aboutir à des résultats révolutionnaires ? Nous verrons.

Alors, quels problèmes de production réels ont été rencontrés lors de l'exploration pratique de la technologie vocale intelligente dans les grandes entreprises ? Comment a-t-il été résolu ? Quels progrès ont été réalisés ? Quels nouveaux changements sont survenus dans l’industrie ? Quelles sont les prochaines tendances de développement ? La session spéciale sur la technologie vocale intelligente « AISummit Global Artificial Intelligence Technology Conference » vous apportera une réflexion approfondie !

Le 7 août, l'événement spécial sur la voix intelligente « AISummit Global Artificial Intelligence Technology Conference » créé par 51CTO arrive !

Quels sujets vous intéressent dans la session spéciale ?

Thème 1 : Pratique de la technologie vocale de Zuoyebang

1. Exploration de la technologie de reconnaissance vocale : partager la technologie de reconnaissance vocale dans des scénarios d'application pratiques à grande échelle tels que l'utilisation efficace de bout en bout des données et proposer des mots chauds basés sur automates à préfixe Solutions techniques.

2. Pratique de la technologie d'évaluation de la parole : en termes de technologie de correction des erreurs de prononciation vocale, combinée au scénario à haute concurrence de l'aide aux devoirs, une solution de transfert de connaissances multitâches et de fusion de fonctionnalités multimodales est proposée, ce qui grandement améliore les capacités de différenciation factorielle du modèle et les capacités de détection d'erreurs dans les environnements bruyants. Compte tenu de la difficulté de mise en œuvre de l’évaluation vocale, une technologie d’évaluation intégrée haute performance basée sur le cloud a été proposée.

3. Cadre technologique de synthèse vocale : partagez la réflexion et la pratique d'améliorations supplémentaires basées sur le cadre technologique vocal existant pour petits volumes de données.

Thème 2 : Application de la technologie de reconnaissance vocale par octets à Feishu

1. Processus d'application de la technologie de reconnaissance vocale dans des scénarios de bureau : saisie vocale dans les e-mails de bureau, messagerie instantanée, assistant vocal de bureau, sous-titres et conférences en temps réel Transcrit ultérieurement .

2. Réflexion solution : rencontrer l’intelligence et améliorer l’efficacité.

3. Défis et opportunités : Les défis des tâches de reconnaissance vocale, les défis apportés par les tâches en aval et les réunions fournissent des informations supplémentaires.

4. Introduction au travail des algorithmes clés (système de reconnaissance vocale de bout en bout) : Transducteur & CIF, mots chauds dynamiques + statiques, sensibles au contexte.

Thème 3 : Pratique de la construction d'un système de synthèse vocale de haut niveau

1. Introduction et analyse des problèmes des systèmes de synthèse vocale de haut niveau.

2. Réflexion sur la conception et mise en œuvre d'un système de synthèse vocale de haut niveau.

3. Évaluation expérimentale.

4. Perspectives de travail futures.

Thème 4 : La voie vers la mise en œuvre pratique de la technologie vocale intelligente dans les scénarios sociaux SOUL

1. Reconnaissance vocale de bout en bout dans les scénarios de métaverse sociale SOUL

3. Application dans des scénarios commerciaux tels que la sécurité vocale et l'interaction vocale

Thème 5 : Exploration et pratique de la technologie de reconnaissance vocale de bout en bout dans 58.com

1. .com : IA voix intelligente Introduction aux applications, liens de reconnaissance vocale, défis et parcours techniques

2 Travaux d'optimisation de modèles basés sur WeNet : formation semi-supervisée, Efficient Conformer, compression de modèles

3. -fin plan de déploiement de la reconnaissance vocale : automatique Quels sont les invités importants qui rechercheront l'architecture du moteur, le déploiement du service de décodage Wenet et les tests de performances de décodage en streaming/non-streaming

1. Song Yang, expert en chef en algorithme, chef du middle office intelligent et producteur spécial de Zuoyebang

Song Yang travaille chez Baidu depuis 7 ans et est engagé dans la recherche et le développement d'algorithmes. A rejoint Zuoyebang en 2015 en tant que chef du département du middle office intelligent. Il fournit des capacités techniques de middle office, notamment l'exploration de données, la PNL et la voix, aux différentes activités de l'entreprise. Il a été responsable de la recherche et des questions et réponses, des recommandations personnalisées, de l'inspection qualité intelligente. évaluation vocale, répartition intelligente des services et autres directions.

2. Wang Qiangqiang, chef de l'équipe de technologie vocale de Zuoyebang

Avant de rejoindre Zuoyebang, Wang Qiangqiang a travaillé au laboratoire de traitement de la parole et d'intelligence artificielle du département d'ingénierie électronique de l'université de Tsinghua, responsable de la mise en œuvre de la parole. algorithmes de reconnaissance et construction de solutions de niveau industriel. A rejoint Zuoyebang en 2018 et est responsable de la recherche et de la mise en œuvre d'algorithmes liés à la parole. Il a dirigé la mise en œuvre de la reconnaissance vocale, de l'évaluation, de la synthèse et d'autres algorithmes à Zuoyebang, fournissant à l'entreprise un ensemble complet de solutions technologiques vocales.

3. Zhang Jun, chercheur en algorithmes de reconnaissance vocale au ByteDance AI Lab

Zhang Jun est engagé depuis longtemps dans la recherche et l'application d'algorithmes vocaux tels que la reconnaissance vocale et le réveil vocal, et possède une riche expérience. En 2018, il a rejoint l'équipe de voix intelligente du ByteDance AI Lab et est actuellement principalement responsable de la construction de solutions de technologie vocale dans les domaines du bureau intelligent, du matériel intelligent et du service client intelligent.

4. Tan Xu, chercheur principal chez Microsoft Research Asia

Tan Xu, les domaines de recherche incluent l'apprentissage profond, le langage naturel/parole/musique, la génération de contenu IA, etc. Le système de traduction automatique et de synthèse vocale développé a remporté plusieurs championnats de compétition et atteint le niveau humain dans les ensembles d'évaluation académiques. Les travaux de recherche tels que le modèle de langage de pré-formation MASS, le modèle de synthèse vocale FastSpeech/NaturalSpeech et le projet de musique d'IA Muzic ont reçu une large attention. l'industrie.

5. Liu Zhongliang, responsable de l'algorithme vocal SOUL

Liu Zhongliang est diplômé de l'École supérieure de l'Académie chinoise des sciences avec une maîtrise. Il est actuellement responsable de l'algorithme vocal chez SOUL. Département d'interaction Sogou AI et département Momo Big Data. Au cours des 10 dernières années, il s'est principalement engagé dans la recherche et le développement de systèmes de technologie vocale tels que le réveil vocal, la reconnaissance vocale, la synthèse vocale et la compréhension audio-musicale. Ils sont principalement utilisés dans les scénarios commerciaux d'interaction vocale et de compréhension vocale. tels que les méthodes de saisie, les assistants mobiles, le matériel intelligent et la sécurité vocale. Il s'engage à créer la meilleure technologie vocale implémentable.

6. Zhou Wei, chef du département d'algorithmes vocaux et architecte d'algorithmes du 58.com AI Lab

Zhou Wei, chef du département d'algorithmes de parole et architecte d'algorithmes du 58.com AI Lab, est responsable de la recherche. et développement d’algorithmes de reconnaissance vocale et de synthèse vocale. Diplômé d'un master de l'Université de l'Académie chinoise des sciences en 2016. Après avoir obtenu son diplôme, il a participé à l'entrepreneuriat dans le domaine des produits d'IA conversationnelle. En mai 2018, il a rejoint 58.com et a participé à la recherche et au développement de la PNL. algorithmes pour des projets d'IA tels que le service client intelligent, les appels sortants intelligents et l'écriture intelligente. En 2019, il a commencé à se concentrer sur la direction des algorithmes vocaux et a conduit l'équipe à développer de manière indépendante l'algorithme vocal dans le moteur de traitement vocal de 58 villes. 1.

Quelles sont les autres activités passionnantes disponibles ?

En plus du merveilleux partage d'innovations pratiques par de merveilleux experts en technologie de l'IA, la conférence mondiale sur la technologie de l'intelligence artificielle AISummit a également préparé une multitude d'avantages interactifs pré-site et sur site pour les participants. Rejoignez cet événement, développez vos capacités techniques et vos ressources réseau, et repartez avec des cadeaux surprises en même temps !

L'événement comprend quatre jeux interactifs intéressants tels que « Ne cédez pas », « Travaillez avec chance » et « Sagez et partagez les mêmes objectifs ». Il y aura toujours un cadeau exquis à surprendre. vous ! Alors, le mystère légendaire. Quel sera le prix ultime ? J'attends que vous, amateurs de technologie, veniez révéler le secret sur place ! (PS : j'ai entendu dire que plus on prend rendez-vous tôt, plus on a de chances de remporter le lot !) Comment prendre rendez-vous rapidement ?

Cliquez pour participer

AISummit Global Artificial Intelligence Technology Conference Siri devient de plus en plus « populaire ». Quelles avancées y aura-t-il dans le domaine de la voix intelligente à lavenir ? site officiel, suivez les instructions pour remplir complètement et soumettre les informations pour finaliser l'inscription. Scannez le code QR pour rejoindre le groupe officiel de la conférence, participer à la loterie et gagner des cadeaux exquis tels que des haut-parleurs SONY, Bingdundun et des livres sur la technologie IA, ainsi que des enveloppes rouges.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration：

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article précédent：La CMA britannique va examiner le marché de l'IA et déclare qu'elle ne ciblera « aucune entreprise en particulier »Article suivant：La CMA britannique va examiner le marché de l'IA et déclare qu'elle ne ciblera « aucune entreprise en particulier »

Articles Liés

Voir plus