Maison >Périphériques technologiques >IA >Byte propose un modèle de rééchantillonnage d'images asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP
La tâche Image Rescaling (LR) optimise conjointement les opérations de sous-échantillonnage et de suréchantillonnage d'image. En réduisant et en restaurant la résolution de l'image, elle peut être utilisée pour économiser de l'espace de stockage ou de la bande passante de transmission. Dans des applications pratiques, telles que la distribution multi-niveaux des services d'atlas, les images basse résolution obtenues par sous-échantillonnage sont souvent soumises à une compression avec perte, et la compression avec perte entraîne souvent une diminution significative des performances des algorithmes existants.
Récemment, ByteDance - Volcano Engine Multimedia Laboratory a essayé pour la première fois d'optimiser les performances de rééchantillonnage d'images sous compression avec perte et a conçu un cadre de rééchantillonnage asymétrique réversible, basé sur les deux observations, a en outre proposé l'anti-compression modèle de rééchantillonnage d'images SAIN. Cette étude découple un ensemble de modules de réseau réversibles en deux parties : le rééchantillonnage et la simulation de compression, utilise une distribution gaussienne mixte pour modéliser la perte d'informations conjointe provoquée par la dégradation de la résolution et la distorsion de compression, et la combine avec un opérateur JPEG différenciable pour une analyse de bout en bout. end training , ce qui améliore considérablement la robustesse des algorithmes de compression courants.
Dans les recherches actuelles sur le rééchantillonnage d'images, la méthode SOTA s'appuie sur le Réseau Inversible pour construire une fonction bijective (fonction bijective), dont l'opération positive convertit les images haute résolution (HR) en image basse résolution (LR) et une série de variables cachées obéissant à la distribution normale standard. L'opération inverse échantillonne de manière aléatoire les variables cachées et les combine avec l'image LR pour une restauration par suréchantillonnage.
En raison des caractéristiques du réseau réversible, les opérateurs de sous-échantillonnage et de suréchantillonnage maintiennent un degré élevé de symétrie, ce qui rend l'image LR compressée difficile à restaurer par l'opérateur de suréchantillonnage initialement appris. Afin d'améliorer la robustesse à la compression avec perte, cette étude propose un modèle de rééchantillonnage d'image résistant à la compression SAIN (Self-Asymétrique Invertible Network) basé sur un cadre réversible asymétrique.
Les principales innovations du modèle SAIN sont les suivantes :
Les performances du modèle SAIN ont été vérifiées sous compression JPEG et WebP, et ses performances sur plusieurs ensembles de données publiques sont nettement supérieures à celles du modèle SOTA qui a été sélectionné pour l'AAAI 2023 Oral.
Figure 1 Diagramme du modèle Dual-IRN.
Afin d'améliorer les performances d'anti-compression, cette recherche a d'abord conçu un cadre de rééchantillonnage d'image réversible asymétrique et a proposé le schéma de base du modèle Dual-IRN. Après une analyse approfondie des lacunes de ce schéma, une optimisation supplémentaire a été effectuée. réalisé Le modèle SAIN est proposé. Comme le montre la figure ci-dessus, le modèle Dual-IRN contient deux branches, où D-IRN et U-IRN sont deux ensembles de réseaux réversibles qui apprennent respectivement la bijection entre l'image HR et l'image LR pré-compression/post-compression. .
Pendant la phase d'entraînement, le modèle Dual-IRN fait passer le gradient entre les deux branches via l'opérateur JPEG différentiable. Lors de la phase de test, le modèle utilise D-IRN pour sous-échantillonner afin d'obtenir des images LR de haute qualité. Après une compression réelle dans l'environnement réel, le modèle utilise ensuite U-IRN avec prise en charge de la compression pour terminer la récupération par compression et le suréchantillonnage.
Un tel cadre asymétrique permet aux opérateurs de suréchantillonnage et de sous-échantillonnage d'éviter des relations réversibles strictes. Il résout fondamentalement le problème causé par l'algorithme de compression détruisant la symétrie des processus de suréchantillonnage et de sous-échantillonnage, par rapport à SOTA. Le schéma symétrique s'améliore considérablement. les performances de résistance à la compression.
Par la suite, les chercheurs ont mené une analyse plus approfondie sur le modèle Dual-IRN et ont observé les deux phénomènes suivants :
Sur la base de l'analyse ci-dessus, les chercheurs ont optimisé le modèle sous plusieurs aspects. Le modèle SAIN résultant a non seulement réduit le nombre de paramètres du réseau de près de moitié, mais a également permis d'améliorer encore les performances.
Figure 2 Schéma du modèle SAIN.
L'architecture du modèle SAIN est présentée dans la figure ci-dessus, et les quatre améliorations principales suivantes ont été apportées :
1. Sur la base de la similitude des caractéristiques de la couche intermédiaire, un ensemble de modules de réseau réversibles est découplé en deux parties : le rééchantillonnage et la simulation de compression, formant une architecture auto-asymétrique pour éviter d'utiliser deux ensembles complets de réseaux réversibles. Dans la phase de test, utilisez la transformation directe
pour obtenir des images LR de haute qualité, utilisez d'abord la transformation inverse
pour la récupération de compression, puis utilisez la transformation inverse
pour le suréchantillonnage.
2. Structure du réseau. E-InvBlock est proposé sur la base de l'hypothèse que la perte de compression peut être récupérée à l'aide d'informations haute fréquence. Une transformation additive est ajoutée au module, de sorte que deux ensembles d'images LR avant et après compression puissent être modélisés efficacement tout en partageant. un grand nombre d'opérations.
3. Modélisation de la perte d'informations. Sur la base de la véritable distribution des variables latentes, il est proposé d'utiliser la distribution gaussienne mixte apprenable pour modéliser la perte d'informations conjointe causée par le sous-échantillonnage et la compression avec perte, et d'optimiser les paramètres de distribution de bout en bout grâce à des techniques de reparamétrage.
4. Fonction objectif . Plusieurs fonctions de perte sont conçues pour limiter la réversibilité du réseau et améliorer la précision de la reconstruction. En même temps, des opérations de compression réelles sont introduites dans la fonction de perte pour améliorer la robustesse des schémas de compression réels.
Évaluation des expériences et des effetsL'ensemble de données d'évaluation est l'ensemble de vérification DIV2K et les quatre ensembles de tests standard de Set5, Set14, BSD100 et Urban100.
Les indicateurs quantitatifs d'évaluation sont :
Dans les expériences comparatives du tableau 1 et de la figure 3, les scores PSNR et SSIM de SAIN sur tous les ensembles de données sont nettement en avance sur le modèle de rééchantillonnage d'images de SOTA. À un QF relativement faible, les méthodes existantes subissent généralement une grave dégradation des performances, tandis que le modèle SAIN maintient toujours des performances optimales.
Tableau 1 Expériences comparatives pour comparer la qualité de reconstruction (PSNR/SSIM) sous différentes qualités de compression JPEG (QF) sur l'ensemble de données DIV2K.
Figure 3 Expérience comparative, comparant la qualité de reconstruction (PSNR) sous différents QF JPEG sur quatre ensembles de tests standards.
Dans les résultats de visualisation de la figure 4, on voit clairement que l'image HR restaurée par SAIN est plus claire et plus précise.
Figure 4 Comparaison des résultats de visualisation de différentes méthodes sous compression JPEG (grossissement ×4).
Dans les expériences d'ablation du tableau 2, les chercheurs ont également comparé plusieurs autres candidats à un entraînement combiné à une compression réelle. Ces candidats sont plus résistants à la compression que le modèle existant entièrement symétrique (IRN), mais restent inférieurs au modèle SAIN en termes de nombre de paramètres et de précision.
Tableau 2 Expériences d'ablation pour le cadre global et la stratégie de formation.
Dans les résultats de visualisation de la figure 5, les chercheurs ont comparé les résultats de reconstruction de différents modèles de rééchantillonnage d'images sous distorsion de compression WebP. On peut constater que le modèle SAIN affiche également le score de reconstruction le plus élevé sous le schéma de compression WebP et peut restaurer de manière claire et précise les détails de l'image, prouvant la compatibilité deSAIN pour différents schémas de compression.
Figure 5 Comparaison qualitative et quantitative de différentes méthodes sous compression WebP (grossissement ×2).
De plus, l'étude a également mené des expériences d'ablation sur la distribution gaussienne mixte, E-InvBlock et la fonction de perte, prouvant la contribution positive de ces améliorations aux résultats.Résumé et perspectives
Le Volcano Engine Multimedia Laboratory a proposé un modèle basé sur un cadre asymétrique réversible pour le rééchantillonnage d'images anti-compression : SAIN. Le modèle se compose de deux parties : le rééchantillonnage et la simulation de compression. Il utilise une distribution gaussienne mixte pour modéliser la perte d'informations conjointe causée par la réduction de résolution et la distorsion de compression. Il est combiné avec un opérateur JPEG différentiable pour un apprentissage de bout en bout, et E. -InvBlock est proposé pour améliorer le modèle. La capacité d'ajustement améliore considérablement la robustesse des algorithmes de compression courants.Le Laboratoire multimédia Volcano Engine est une équipe de recherche de ByteDance. Il s'engage à explorer les technologies de pointe dans le domaine multimédia et à participer aux travaux de normalisation internationaux. Ses nombreux algorithmes innovants et solutions logicielles et matérielles ont été largement utilisés dans des produits tels que. comme Douyin et Xigua Video et fournit des services techniques aux entreprises clientes de Volcano Engine. Depuis la création du laboratoire, de nombreux articles ont été sélectionnés dans les meilleures conférences internationales et revues phares, et ont remporté plusieurs championnats de compétitions techniques internationales, des prix de l'innovation industrielle et des prix du meilleur article. À l'avenir, l'équipe de recherche continuera d'optimiser les performances du modèle de rééchantillonnage d'images sous compression avec perte et d'explorer davantage des scénarios d'application plus complexes tels que le rééchantillonnage vidéo anti-compression et le rééchantillonnage à grossissement arbitraire.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!