Maison > Article > Périphériques technologiques > Parlons de la technologie de réduction du bruit de l'IA dans la communication en temps réel
Dans les scénarios de communication audio et vidéo en temps réel, lorsque le microphone collecte la voix de l'utilisateur, il collecte également une grande quantité de bruit ambiant uniquement grâce aux algorithmes traditionnels de réduction du bruit. gérer les bruits stables (tels que le vent du ventilateur, le fond blanc, etc.) Il a un certain effet sur le bruit transitoire non stationnaire (tel que le bruit du restaurant, le bruit ambiant du métro, le bruit de la cuisine à domicile, etc.), ce qui affecte sérieusement l'utilisateur expérience d'appel. En réponse à des centaines de problèmes de bruit non stationnaire dans des scénarios complexes tels que la maison et le bureau, l'équipe d'autonomisation écologique du Département des systèmes de communication intégrés a développé indépendamment une technologie de réduction du bruit audio IA basée sur le modèle GRU et grâce à l'optimisation d'algorithmes et d'ingénierie, réduit la taille du modèle de réduction du bruit. Comprimée de 2,4 Mo à 82 Ko, la mémoire en cours d'exécution est réduite d'environ 65 % ; la complexité de calcul est optimisée d'environ 186 Mflops à 42 Mflops et l'efficacité d'exécution est améliorée de 77 % dans l'existant ; Ensemble de données de test (dans l'environnement expérimental), la voix humaine et le bruit peuvent être efficacement séparés, améliorant ainsi le score Mos de la qualité de la voix de l'appel (valeur d'opinion moyenne) à 4,25.
Cet article présentera comment notre équipe effectue la suppression du bruit en temps réel basée sur l'apprentissage en profondeur et la met en œuvre sur les terminaux mobiles et l'application Jiaqin. Le texte complet sera organisé comme suit, présentant la classification du bruit et comment choisir des algorithmes pour résoudre ces problèmes de bruit ; comment concevoir des algorithmes et former des modèles d'IA grâce à l'apprentissage en profondeur ; enfin, il présentera les effets et les applications clés de l'IA actuelle ; scène de réduction du bruit.
Dans les scénarios d'applications audio et vidéo en temps réel, l'appareil se trouve dans un environnement acoustique complexe. Lorsque le microphone collecte des signaux vocaux, il. collecte également une grande quantité de bruit. C'est un très gros défi pour la qualité audio et vidéo en temps réel. Il existe de nombreux types de bruit. Selon les caractéristiques statistiques mathématiques du bruit, le bruit peut être divisé en deux catégories :
Bruit stationnaire : Les caractéristiques statistiques du bruit ne changeront pas avec le temps pendant une période relativement longue, comme le bruit blanc et ventilateurs électriques, climatisation, bruit intérieur, etc. ; , bureaux, cuisines à domicile, etc.
Dans les applications audio et vidéo en temps réel, les appels sont sensibles aux interférences de divers bruits, ce qui affecte l'expérience. Par conséquent, la réduction du bruit audio en temps réel est devenue une fonction importante dans la réalité. -temps audio et vidéo. Pour le bruit constant, tel que le vrombissement des climatiseurs ou le bruit de fond des équipements d'enregistrement, il ne changera pas de manière significative au fil du temps. Vous pouvez l'estimer, le prédire et le supprimer par une simple soustraction. Il existe des soustractions spectrales, des filtrages de Wiener et des ondelettes. transformer. Les bruits non stationnaires, tels que le bruit des voitures qui passent à toute allure sur la route, le claquement des assiettes dans les restaurants et le claquement des casseroles et des poêles dans les cuisines domestiques, apparaissent tous de manière aléatoire et inattendue, et il est impossible de les estimer et de les prévoir. .résolu. Les algorithmes traditionnels sont difficiles à estimer et à éliminer le bruit non stationnaire, c'est pourquoi nous utilisons des algorithmes d'apprentissage profond.
Afin d'améliorer les capacités de réduction du bruit du SDK audio pour diverses scènes de bruit et de compenser les lacunes de la réduction de bruit traditionnelle algorithmes, nous avons développé un module de réduction du bruit AI basé sur RNN, combinant la technologie traditionnelle de réduction du bruit et la technologie d'apprentissage en profondeur. En se concentrant sur le traitement de la réduction du bruit pour les scénarios d'utilisation à la maison et au bureau, un grand nombre de types de bruit intérieur sont ajoutés à l'ensemble de données sur le bruit, tels que la frappe au clavier au bureau, les bruits de friction des bureaux et des fournitures de bureau traînés, le traînage des chaises et les cuisines. à la maison Bruits, claquements de sol, etc. Dans le même temps, afin de mettre en œuvre le traitement de la parole en temps réel sur le terminal mobile, cet algorithme de réduction du bruit audio IA contrôle la surcharge de calcul et la taille de la bibliothèque à un niveau très faible. En termes de surcharge de calcul, en prenant 48 KHz comme exemple, le traitement du réseau RNN de chaque trame vocale ne nécessite qu'environ 17,5 Mflops, FFT et IFFT nécessitent environ 7,5 Mflops de chaque trame vocale, et l'extraction de fonctionnalités nécessite environ 12 Mflops, pour un total d'environ 42 Mflops. La complexité de calcul est d'environ 48 kHz. Dans une certaine marque de modèles de téléphones mobiles de milieu de gamme, les statistiques indiquent que l'utilisation du processeur du module de réduction du bruit RNN est d'environ 4 %. En termes de taille de la bibliothèque audio, après avoir activé la compilation de réduction du bruit RNN, la taille de la bibliothèque du moteur audio n'augmente que d'environ 108 Ko. Ce module utilise le modèle RNN car RNN transporte des informations temporelles par rapport à d'autres modèles d'apprentissage (tels que CNN) et peut modéliser des signaux de synchronisation, plutôt que séparez simplement les images d’entrée et de sortie audio. Dans le même temps, le modèle utilise une unité récurrente fermée (GRU, comme le montre la figure 1). Les expériences montrent que GRU fonctionne légèrement mieux que LSTM sur les tâches de réduction du bruit vocal et que, comme GRU a moins de paramètres de poids, il peut économiser des ressources informatiques. . Par rapport à une simple unité de boucle, un GRU possède deux portes supplémentaires. L'état de contrôle de porte de réinitialisation est utilisé pour calculer le nouvel état, tandis que l'état de contrôle de porte de mise à jour indique dans quelle mesure il changera en fonction de la nouvelle entrée. Cette porte de mise à jour permet à GRU de mémoriser les informations de synchronisation pendant une longue période, c'est pourquoi GRU fonctionne mieux que de simples unités récurrentes.
Figure 1 Le côté gauche est une unité cyclique simple et le côté droit est GRU La structure du modèle est présentée dans la figure 2. Le modèle formé sera intégré dans le SDK de communication audio et vidéo. En lisant le flux audio du périphérique matériel, le flux audio sera encadré et envoyé au module de prétraitement de réduction du bruit AI. Le module de prétraitement ajoutera les fonctionnalités correspondantes. (Fonctionnalité) est calculé et transmis au modèle entraîné. La valeur de gain correspondante (Gain) est calculée via le modèle, et la valeur de gain est utilisée pour ajuster le signal, atteignant finalement l'objectif de réduction du bruit (comme le montre la figure 3). . Figure 2. Modèle de réseau RNN basé sur GRU Processus de formation, vous trouverez ci-dessous le processus de réduction du bruit en temps réel La figure 4 montre la comparaison des spectrogrammes vocaux avant et après la réduction du bruit avec le bruit de frappe du clavier. , dans lequel la case rectangulaire rouge représente le bruit de frappe du clavier. La partie inférieure est le signal vocal après réduction du bruit. Grâce à l'observation, on peut constater que la plupart des sons de frappe du clavier peuvent être supprimés, tandis que les dommages vocaux sont contrôlés à un faible niveau.
Figure 4. Discours bruyant (accompagné de sons de frappe du clavier pendant l'appel) avant et après comparaison Le modèle actuel de réduction du bruit de l'IA est déjà sur le téléphone mobile Hejiaqin est en ligne pour améliorer l'effet de réduction du bruit des appels sur les téléphones mobiles et l'application Jiaqin possède d'excellentes capacités de suppression dans plus de 100 scénarios de bruit, y compris les maisons et les bureaux, tout en conservant la distorsion de la voix. Dans la prochaine étape, nous continuerons à optimiser la complexité informatique du modèle de réduction du bruit de l'IA afin qu'il puisse être promu et utilisé sur les appareils IoT à faible consommation.
Partie 03 Conception d'algorithmes de réduction du bruit d'apprentissage profond
Partie 04 Modèle de réseau et flux de traitement
Partie 05 Effet et mise en œuvre du traitement de réduction du bruit de l'IA
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!