Maison  >  Article  >  Périphériques technologiques  >  mon pays a fait des progrès importants dans la formulation de la norme vocale en temps réel AVS3 et la solution de Tencent a été sélectionnée

mon pays a fait des progrès importants dans la formulation de la norme vocale en temps réel AVS3 et la solution de Tencent a été sélectionnée

王林
王林avant
2023-12-15 10:57:10928parcourir

Selon les informations officielles de la New Generation Artificial Intelligence Alliance, la norme de codage vocal en temps réel AVS3P10 a récemment fait des progrès importants. La nouvelle a été publiée sur ce site le 14 décembre.

Le 14 décembre 2023, le 87e AVS Working. Ouverture de la réunion de groupe à Chengdu. Lors de la réunion, « Intelligent Media Coding Part 10 Real-time Speech » (ci-après dénommé AVS3P10), WD 1.0 a été examiné par la réunion plénière La solution technique soumise par Tencent a été sélectionnée comme référence RM0 pour la parole en temps réel AVS3P10 ; codage.

mon pays a fait des progrès importants dans la formulation de la norme vocale en temps réel AVS3 et la solution de Tencent a été sélectionnée

La technologie de communication vocale en temps réel (Note sur ce site : RTC, Real-time Communication) a été largement utilisée dans le bureau collaboratif, le divertissement interactif, les réseaux sociaux et d'autres domaines. Les scénarios d'application diversifiés et riches mentionnés ci-dessus posent une variété de défis techniques à la technologie de communication vocale en temps réel, parmi lesquels un codage vocal de haute qualité, à faible latence, à faible bande passante et à haute résistance.

À un débit de code de 16 à 20 kbps, les codeurs vocaux traditionnels tels que les normes AVS et ITU-T peuvent produire une parole haut débit de haute qualité. À 30-35 kbps, ils peuvent générer une voix ultra large bande et même pleine bande de haute qualité. Cependant, lorsque le débit binaire est encore réduit (par exemple en dessous de 10 kbps), la qualité de récupération de l'encodeur vocal traditionnel est considérablement réduite, ce qui a un impact sur l'expérience utilisateur

Sur la base des exigences de l'application ci-dessus, lors du 84e AVS Lors d'une conférence en mars de cette année, Tencent a proposé de lancer un projet de système vocal à faible débit et de haute qualité pour des scénarios de communication vocale en temps réel au sein du groupe audio AVS. Après analyse de la demande, lors de la 85e réunion AVS, AVS a officiellement lancé le projet de codage vocal en temps réel AV3P10 et a lancé une sollicitation technique par l'intermédiaire du groupe audio AVS. Le projet de codage vocal en temps réel AVS3P10 sera promu et maintenu par Xiao Wei de Tencent Conference Teana Lab.

Lors de la 86ème réunion AVS, le groupe audio a examiné la proposition M7886 « Plan technique candidat du modèle de référence de codage vocal AVS3P10 » soumise par le laboratoire Tianlai de la conférence Tencent

L'examen a révélé que le plan présente les quatre caractéristiques suivantes :

  • Il intègre profondément les technologies d'intelligence artificielle telles que le traitement du signal classique et la technologie de réseau neuronal profond, et appartient à AI Codec

  • prend en charge un faible débit binaire, un encodage de haute qualité, un encodage et un décodage en temps réel et un encodage multi-débit ;

  • est basé sur le codage de sous-bande et l'architecture de codage multimode, les signaux basse fréquence utilisent des réseaux neuronaux profonds pour extraire les caractéristiques, les signaux haute fréquence utilisent un schéma d'expansion de bande de fréquence pour extraire les caractéristiques et la compression des caractéristiques est complétée en combinant scalaire quantification et codage entropique ;
  • présente les caractéristiques techniques d'une architecture de réseau neuronal à codage ouvert, et sur la base de la compatibilité ascendante du flux de code, le réseau neuronal de codage peut être re-modifié et optimisé. Le 1er novembre de cette année, Tencent Conference Tianbai Lab a soumis le fichier exécutable de la solution candidate AVS3P10 RM0,
  • par le China Electronics Technology Standardization Institute et Huawei subjectif des tests et une validation croisée ont été effectués respectivement

    . La validation croisée s'efforce d'être complète, basée sur le système d'évaluation de la qualité subjective ITU-T P.800 DCR. Le test subjectif couvre la voix pure, la voix avec perte de paquets, la voix mixte et d'autres scénarios sous différentes bandes passantes, et pour la première fois, le scénario de test traité 3A est introduit dans le codage source lors du test machine, pour tester les performances de la technologie AI Codec de nouvelle génération dans des scénarios proches de la réalité.

  • Dans le scénario de test ci-dessus,
AVS3P10 RM0 présente des avantages de qualité évidents

. Les résultats des tests subjectifs montrent que l'AVS3P10 RM0 a atteint des points MOS supérieurs à 4,0 dans plusieurs scénarios de test majeurs tels que le haut débit et l'ultra large bande, montrant des avantages évidents, le débit binaire le plus bas atteignant 5,9 kbps. AVS3P10 RM0 adopte la technologie de réseau neuronal profond et possède sa propre capacité de perte de paquets, ce qui améliore efficacement la qualité de l'encodeur lorsque le réseau est médiocre.

mon pays a fait des progrès importants dans la formulation de la norme vocale en temps réel AVS3 et la solution de Tencent a été sélectionnée

mon pays a fait des progrès importants dans la formulation de la norme vocale en temps réel AVS3 et la solution de Tencent a été sélectionnée

De plus, dans l'expérience d'évaluation objective de la qualité ITU-T P.863, AVS3P10 RM0 a également montré des avantages significatifs. Tout d'abord, dans les huit débits binaires de test, la valeur MOS de l'AVS3P10 RM0 dépasse 4,0, atteignant un maximum de 4,45. La qualité de l'AVS3P10 RM0 est comparable aux performances des encodeurs de traitement du signal traditionnels tels que OPUS et EVS à des débits binaires moyens et élevés, atteignant une qualité de qualité opérateur. Dans le domaine des codecs AI, AVS3P10 RM0 présente un avantage de qualité de plus de 0,6MOS à des débits binaires similaires. Les résultats des tests ci-dessus montrent que AVS3P10 RM0 représente le niveau le plus élevé des codecs d'IA actuels.

La New Generation Artificial Intelligence Alliance a déclaré que Le codage vocal en temps réel AVS3P10, en tant que nouvelle génération de normes technologiques de codecs vocaux, est un complément important au Série de normes AVS .

À l'avenir, le projet de codage vocal en temps réel AVS3P10 sera promu selon le plan établi, Il devrait achever les travaux de normalisation à la mi-2024.

Déclaration publicitaire : cet article contient des liens de renvoi externes (y compris, mais sans s'y limiter, des hyperliens, des codes QR, des mots de passe, etc.), conçus pour fournir plus d'informations et gagner du temps de vérification. Les résultats du lien sont uniquement à titre de référence. Veuillez noter que tous les articles de ce site contiennent cette déclaration

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer