Maison >Périphériques technologiques >IA >Interspeech 2023 | Volcano Engine Technologie audio de streaming Amélioration de la parole et codage audio IA

Interspeech 2023 | Volcano Engine Technologie audio de streaming Amélioration de la parole et codage audio IA

王林avant: 2023-09-11 12:57:02925parcourir

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Introduction au contexte

Afin de faire face à divers scénarios de communication audio et vidéo complexes, tels que les scénarios multi-appareils, multi-personnes et multi-bruit, la technologie de communication multimédia en streaming est progressivement devenue une technologie indispensable dans la vie des gens. . Afin d'obtenir une meilleure expérience subjective et de permettre aux utilisateurs d'entendre clairement et véritablement, la solution technologique de streaming audio combine des solutions traditionnelles d'apprentissage automatique et d'amélioration de la voix basées sur l'IA, en utilisant des solutions technologiques de réseau neuronal profond pour obtenir une réduction du bruit vocal et une annulation de l'écho. élimination des interférences vocales et codage et décodage audio, etc., pour protéger la qualité audio dans la communication en temps réel.

En tant que conférence internationale phare dans le domaine de la recherche sur le traitement du signal vocal, Interspeech a toujours représenté la direction de recherche la plus avant-gardiste dans le domaine de l'acoustique. Interspeech 2023 comprend un certain nombre d'articles liés aux algorithmes d'amélioration de la parole du signal audio, parmi lesquels. , Volcano Engine Streaming Audio Au total, 4 articles de recherche de l'équipe ont été acceptés par la conférence, notamment l'amélioration de la parole, l'encodage et le décodage basés sur l'IA, l'annulation de l'écho et l'amélioration adaptative non supervisée de la parole.

Il convient de mentionner que dans le domaine de l'amélioration adaptative de la parole non supervisée, l'équipe conjointe de ByteDance et de NPU a complété avec succès la sous-tâche d'amélioration adaptative de la parole de conversation dans le domaine non supervisé (domaine non supervisé) du CHiME (Computational Hearing in Multisource Environments) de cette année. Le défi d'adaptation pour l'amélioration de la parole conversationnelle (UDASE) a remporté le championnat (https://www.chimechallenge.org/current/task2/results). Le CHiME Challenge est un important concours international lancé en 2011 par des instituts de recherche de renom tels que l'Institut français d'informatique et d'automatisation, l'Université de Sheffield au Royaume-Uni et le laboratoire de recherche Mitsubishi Electronics aux États-Unis. relever des problèmes à distance dans le domaine de la recherche sur la parole. Cette année, il a lieu pour la septième fois. Les équipes participantes aux précédents concours CHiME comprennent l'Université de Cambridge au Royaume-Uni, l'Université Carnegie Mellon aux États-Unis, l'Université Johns Hopkins, NTT au Japon, Hitachi Academia Sinica et d'autres universités et instituts de recherche de renommée internationale, ainsi que l'Université Tsinghua, Université de l'Académie chinoise des sciences, Institut d'acoustique de l'Académie chinoise des sciences, NPU, iFlytek et d'autres grandes universités et instituts de recherche nationaux.

Cet article présentera les principaux problèmes de scénario et les solutions techniques résolus par ces 4 articles, partager la réflexion et la pratique de l'équipe audio en streaming de Volcano Engine dans le domaine de l'amélioration de la parole, basée sur l'encodeur IA, l'annulation d'écho et la parole adaptative non supervisée. renforcement.

Méthode légère d'amélioration des harmoniques de la parole basée sur un filtre en peigne apprenable

Adresse papier : https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html

Contexte

Restricted En raison de la latence et des ressources informatiques, L'amélioration de la parole dans les scénarios de communication audio et vidéo en temps réel utilise généralement des fonctionnalités d'entrée basées sur des banques de filtres. Grâce à des banques de filtres telles que Mel et ERB, le spectre original est compressé en sous-bandes de dimension inférieure. Dans le domaine des sous-bandes, le résultat du modèle d'amélioration de la parole basé sur l'apprentissage profond est le gain de parole de la sous-bande, qui représente la proportion de l'énergie vocale cible. Cependant, l'audio amélioré sur le domaine de sous-bande compressé est flou en raison de la perte de détails spectraux, nécessitant souvent un post-traitement pour améliorer les harmoniques. RNNoise et PercepNet utilisent des filtres en peigne pour améliorer les harmoniques, mais en raison de l'estimation de la fréquence fondamentale, du calcul du gain du filtre en peigne et du découplage du modèle, ils ne peuvent pas être optimisés de bout en bout ; DeepFilterNet utilise un filtre de domaine temps-fréquence pour supprimer le bruit inter-harmonique. mais n'utilise pas explicitement les informations de fréquence fondamentales de la parole. En réponse aux problèmes ci-dessus, l'équipe a proposé une méthode d'amélioration des harmoniques de la parole basée sur un filtre en peigne apprenable. Cette méthode combine l'estimation de la fréquence fondamentale et le filtrage en peigne, et le gain du filtre en peigne peut être optimisé de bout en bout. Les expériences montrent que cette méthode permet d'obtenir une meilleure amélioration des harmoniques avec une quantité de calcul comparable à celle des méthodes existantes.

Structure du cadre du modèle

Estimateur de fréquence fondamentale (Estimateur F0)

Afin de réduire la difficulté de l'estimation de la fréquence fondamentale et de permettre à l'ensemble de la liaison de fonctionner de bout en bout, la plage de fréquences fondamentales cible à estimer est discrétisée en N fréquences fondamentales discrètes, et estimées à l'aide d'un classificateur. 1 dimension est ajoutée pour représenter les images non vocales, et le résultat final du modèle est la probabilité de N+1 dimensions. Conformément à CREPE, l'équipe utilise les caractéristiques de douceur gaussiennes comme cible d'entraînement et l'entropie croisée binaire comme fonction de perte :

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Filtre en peigne apprenable

pour chacune des fréquences de base discrètes ci-dessus, l'équipe utilise un FIR filtre similaire à PercepNet pour le filtrage en peigne, qui peut être exprimé sous forme de train d'impulsions modulé :

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Utilisez une couche de convolution bidimensionnelle (Conv2D) pour calculer simultanément les résultats de filtrage de toutes les fréquences fondamentales discrètes pendant l'entraînement. Le poids de la convolution bidimensionnelle peut être exprimé sous la forme de la matrice dans la figure ci-dessous. dimensions, et chaque dimension est utilisée L'initialisation du filtre ci-dessus :

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Multipliez l'étiquette one-hot de la fréquence fondamentale cible et la sortie de la convolution bidimensionnelle pour obtenir le résultat de filtrage correspondant à la fréquence fondamentale de chaque image :

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Audio après amélioration harmonique Ajoutez le poids audio d'origine et multipliez-le par le gain de sous-bande pour obtenir la sortie finale :

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Pendant l'inférence, chaque image n'a besoin que de calculer le résultat de filtrage d'une fréquence fondamentale, le coût de calcul de cette méthode est donc faible.

Structure du modèle

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

L'équipe utilise le réseau récurrent convolutionnel à double chemin (DPCRN) comme épine dorsale du modèle d'amélioration de la parole et ajoute un estimateur de fréquence fondamental. L'encodeur et le décodeur utilisent une convolution séparable en profondeur pour former une structure symétrique. Le décodeur a deux branches parallèles qui génèrent respectivement le gain de sous-bande G et le coefficient de pondération R. L'entrée de l'estimateur de fréquence fondamentale est la sortie du module DPRNN et le spectre linéaire. La quantité de calcul de ce modèle est d'environ 300 M de MAC, dont la quantité de calcul de filtrage en peigne est d'environ 0,53 M de MAC.

Formation du modèle

Dans l'expérience, les ensembles de données de défi VCTK-DEMAND et DNS4 ont été utilisés pour la formation, et la fonction de perte d'amélioration de la parole et d'estimation de la fréquence fondamentale a été utilisée pour l'apprentissage multitâche.

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Résultats expérimentaux

L'équipe de streaming audio a comparé le modèle de filtre en peigne apprenable proposé avec des modèles utilisant le filtre en peigne de PercepNet et l'algorithme de filtre de DeepFilterNet, respectivement appelés DPCRN-CF et DPCRN-DF. Sur l'ensemble de test VCTK, la méthode proposée dans cet article présente des avantages par rapport aux méthodes existantes.

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码

Parallèlement, l'équipe a mené des expériences d'ablation sur l'estimation de la fréquence fondamentale et les filtres apprenables. Les résultats expérimentaux montrent que l’apprentissage de bout en bout produit de meilleurs résultats que l’utilisation d’algorithmes d’estimation de fréquence fondamentale et de poids de filtre basés sur le traitement du signal.

Interspeech 2023 | 火山引擎流媒体音频技术之语音增强和AI音频编码