Maison >Périphériques technologiques >IA >Byte propose un modèle de rééchantillonnage d'images asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Byte propose un modèle de rééchantillonnage d'images asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

王林
王林avant
2023-05-02 09:55:121484parcourir

La tâche Image Rescaling (LR) optimise conjointement les opérations de sous-échantillonnage et de suréchantillonnage d'image. En réduisant et en restaurant la résolution de l'image, elle peut être utilisée pour économiser de l'espace de stockage ou de la bande passante de transmission. Dans des applications pratiques, telles que la distribution multi-niveaux des services d'atlas, les images basse résolution obtenues par sous-échantillonnage sont souvent soumises à une compression avec perte, et la compression avec perte entraîne souvent une diminution significative des performances des algorithmes existants.

Récemment, ByteDance - Volcano Engine Multimedia Laboratory a essayé pour la première fois d'optimiser les performances de rééchantillonnage d'images sous compression avec perte et a conçu un cadre de rééchantillonnage asymétrique réversible, basé sur les deux observations, a en outre proposé l'anti-compression modèle de rééchantillonnage d'images SAIN. Cette étude découple un ensemble de modules de réseau réversibles en deux parties : le rééchantillonnage et la simulation de compression, utilise une distribution gaussienne mixte pour modéliser la perte d'informations conjointe provoquée par la dégradation de la résolution et la distorsion de compression, et la combine avec un opérateur JPEG différenciable pour une analyse de bout en bout. end training , ce qui améliore considérablement la robustesse des algorithmes de compression courants.

Dans les recherches actuelles sur le rééchantillonnage d'images, la méthode SOTA s'appuie sur le Réseau Inversible pour construire une fonction bijective (fonction bijective), dont l'opération positive convertit les images haute résolution (HR) en image basse résolution (LR) et une série de variables cachées obéissant à la distribution normale standard. L'opération inverse échantillonne de manière aléatoire les variables cachées et les combine avec l'image LR pour une restauration par suréchantillonnage.

En raison des caractéristiques du réseau réversible, les opérateurs de sous-échantillonnage et de suréchantillonnage maintiennent un degré élevé de symétrie, ce qui rend l'image LR compressée difficile à restaurer par l'opérateur de suréchantillonnage initialement appris. Afin d'améliorer la robustesse à la compression avec perte, cette étude propose un modèle de rééchantillonnage d'image résistant à la compression SAIN (Self-Asymétrique Invertible Network) basé sur un cadre réversible asymétrique.

Les principales innovations du modèle SAIN sont les suivantes :

  • propose un cadre de rééchantillonnage d'images réversible asymétrique, qui résout le problème de dégradation des performances provoqué par une symétrie stricte dans les méthodes précédentes ; propose une amélioration du module réversible (E- ; InvBlock) améliore les capacités d'ajustement du modèle en partant du principe du partage d'un grand nombre de paramètres et d'opérations, et modélise simultanément deux ensembles d'images LR avant et après la compression, permettant au modèle d'effectuer une récupération par compression et un suréchantillonnage via des opérations inverses.
  • Construisez une distribution gaussienne mixte apprenable, modélisez la perte d'informations conjointe causée par la réduction de résolution et la compression avec perte, et optimisez directement les paramètres de distribution grâce à des techniques de reparamétrage, qui sont plus cohérentes avec la distribution réelle des variables latentes.

Les performances du modèle SAIN ont été vérifiées sous compression JPEG et WebP, et ses performances sur plusieurs ensembles de données publiques sont nettement supérieures à celles du modèle SOTA qui a été sélectionné pour l'AAAI 2023 Oral.

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

  • Adresse papier : https://arxiv.org/abs/2303.02353
  • Lien code : https://github.com/yang-jin-hai/SAIN

Cadre de rééchantillonnage asymétrique

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Figure 1 Diagramme du modèle Dual-IRN.

Afin d'améliorer les performances d'anti-compression, cette recherche a d'abord conçu un cadre de rééchantillonnage d'image réversible asymétrique et a proposé le schéma de base du modèle Dual-IRN. Après une analyse approfondie des lacunes de ce schéma, une optimisation supplémentaire a été effectuée. réalisé Le modèle SAIN est proposé. Comme le montre la figure ci-dessus, le modèle Dual-IRN contient deux branches, où D-IRN et U-IRN sont deux ensembles de réseaux réversibles qui apprennent respectivement la bijection entre l'image HR et l'image LR pré-compression/post-compression. .

Pendant la phase d'entraînement, le modèle Dual-IRN fait passer le gradient entre les deux branches via l'opérateur JPEG différentiable. Lors de la phase de test, le modèle utilise D-IRN pour sous-échantillonner afin d'obtenir des images LR de haute qualité. Après une compression réelle dans l'environnement réel, le modèle utilise ensuite U-IRN avec prise en charge de la compression pour terminer la récupération par compression et le suréchantillonnage.

Un tel cadre asymétrique permet aux opérateurs de suréchantillonnage et de sous-échantillonnage d'éviter des relations réversibles strictes. Il résout fondamentalement le problème causé par l'algorithme de compression détruisant la symétrie des processus de suréchantillonnage et de sous-échantillonnage, par rapport à SOTA. Le schéma symétrique s'améliore considérablement. les performances de résistance à la compression.

Par la suite, les chercheurs ont mené une analyse plus approfondie sur le modèle Dual-IRN et ont observé les deux phénomènes suivants :

  • Premièrement, les CKA qui mesurent les caractéristiques de la couche intermédiaire des deux branches du D-IRN et de l'U- Les IRN sont de sexe similaire. Comme le montre le point (b) ci-dessus, les caractéristiques de sortie de la dernière couche du D-IRN (c'est-à-dire les images LR de haute qualité générées par le réseau) sont très similaires aux caractéristiques de sortie des couches peu profondes de l'U-IRN, ce qui indique le comportement superficiel de l'U-IRN est plus proche de la simulation de la perte d'échantillonnage, tandis que le comportement profond est plus proche de la simulation de la perte par compression.
  • Deuxièmement, comptez la vraie distribution des variables cachées dans la couche intermédiaire des deux branches D-IRN et U-IRN. Comme le montre (c) (d) ci-dessus, les variables latentes du D-IRN sans détection compressée satisfont à l'hypothèse de distribution normale unimodale dans son ensemble, tandis que les variables latentes de l'U-IRN avec détection compressée présentent une forme multimodale. indiquant que la forme de perte d’informations causée par une compression avec perte est plus complexe.

Sur la base de l'analyse ci-dessus, les chercheurs ont optimisé le modèle sous plusieurs aspects. Le modèle SAIN résultant a non seulement réduit le nombre de paramètres du réseau de près de moitié, mais a également permis d'améliorer encore les performances.

Détails du modèle SAIN

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Figure 2 Schéma du modèle SAIN.

L'architecture du modèle SAIN est présentée dans la figure ci-dessus, et les quatre améliorations principales suivantes ont été apportées :

1. Sur la base de la similitude des caractéristiques de la couche intermédiaire, un ensemble de modules de réseau réversibles est découplé en deux parties : le rééchantillonnage et la simulation de compression, formant une architecture auto-asymétrique pour éviter d'utiliser deux ensembles complets de réseaux réversibles. Dans la phase de test, utilisez la transformation directe

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

pour obtenir des images LR de haute qualité, utilisez d'abord la transformation inverse

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

pour la récupération de compression, puis utilisez la transformation inverse

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

pour le suréchantillonnage.

2. Structure du réseau. E-InvBlock est proposé sur la base de l'hypothèse que la perte de compression peut être récupérée à l'aide d'informations haute fréquence. Une transformation additive est ajoutée au module, de sorte que deux ensembles d'images LR avant et après compression puissent être modélisés efficacement tout en partageant. un grand nombre d'opérations.

3. Modélisation de la perte d'informations. Sur la base de la véritable distribution des variables latentes, il est proposé d'utiliser la distribution gaussienne mixte apprenable pour modéliser la perte d'informations conjointe causée par le sous-échantillonnage et la compression avec perte, et d'optimiser les paramètres de distribution de bout en bout grâce à des techniques de reparamétrage.

4. Fonction objectif . Plusieurs fonctions de perte sont conçues pour limiter la réversibilité du réseau et améliorer la précision de la reconstruction. En même temps, des opérations de compression réelles sont introduites dans la fonction de perte pour améliorer la robustesse des schémas de compression réels.

Évaluation des expériences et des effets

L'ensemble de données d'évaluation est l'ensemble de vérification DIV2K et les quatre ensembles de tests standard de Set5, Set14, BSD100 et Urban100.

Les indicateurs quantitatifs d'évaluation sont :

  • PSNR : rapport signal/bruit maximal, rapport signal/bruit maximal, reflétant l'erreur quadratique moyenne de l'image reconstruite et de l'image originale, plus il est élevé, mieux c'est 
  • SSIM : Mesure d'image de similarité structurelle ; , mesurant la différence entre l'image reconstruite et l'image originale. Plus la similarité structurelle de l'image est élevée, mieux c'est.

Dans les expériences comparatives du tableau 1 et de la figure 3, les scores PSNR et SSIM de SAIN sur tous les ensembles de données sont nettement en avance sur le modèle de rééchantillonnage d'images de SOTA. À un QF relativement faible, les méthodes existantes subissent généralement une grave dégradation des performances, tandis que le modèle SAIN maintient toujours des performances optimales.

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Tableau 1 Expériences comparatives pour comparer la qualité de reconstruction (PSNR/SSIM) sous différentes qualités de compression JPEG (QF) sur l'ensemble de données DIV2K.

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Figure 3 Expérience comparative, comparant la qualité de reconstruction (PSNR) sous différents QF JPEG sur quatre ensembles de tests standards.

Dans les résultats de visualisation de la figure 4, on voit clairement que l'image HR restaurée par SAIN est plus claire et plus précise.

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Figure 4 Comparaison des résultats de visualisation de différentes méthodes sous compression JPEG (grossissement ×4).

Dans les expériences d'ablation du tableau 2, les chercheurs ont également comparé plusieurs autres candidats à un entraînement combiné à une compression réelle. Ces candidats sont plus résistants à la compression que le modèle existant entièrement symétrique (IRN), mais restent inférieurs au modèle SAIN en termes de nombre de paramètres et de précision.

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Tableau 2 Expériences d'ablation pour le cadre global et la stratégie de formation.

Dans les résultats de visualisation de la figure 5, les chercheurs ont comparé les résultats de reconstruction de différents modèles de rééchantillonnage d'images sous distorsion de compression WebP. On peut constater que le modèle SAIN affiche également le score de reconstruction le plus élevé sous le schéma de compression WebP et peut restaurer de manière claire et précise les détails de l'image, prouvant la compatibilité de

SAIN pour différents schémas de compression.

Byte propose un modèle de rééchantillonnage dimages asymétrique, avec des performances anti-compression de pointe en SOTA sur JPEG et WebP

Figure 5 Comparaison qualitative et quantitative de différentes méthodes sous compression WebP (grossissement ×2).

De plus, l'étude a également mené des expériences d'ablation sur la distribution gaussienne mixte, E-InvBlock et la fonction de perte, prouvant la contribution positive de ces améliorations aux résultats.

Résumé et perspectives

Le Volcano Engine Multimedia Laboratory a proposé un modèle basé sur un cadre asymétrique réversible pour le rééchantillonnage d'images anti-compression : SAIN. Le modèle se compose de deux parties : le rééchantillonnage et la simulation de compression. Il utilise une distribution gaussienne mixte pour modéliser la perte d'informations conjointe causée par la réduction de résolution et la distorsion de compression. Il est combiné avec un opérateur JPEG différentiable pour un apprentissage de bout en bout, et E. -InvBlock est proposé pour améliorer le modèle. La capacité d'ajustement améliore considérablement la robustesse des algorithmes de compression courants.

Le Laboratoire multimédia Volcano Engine est une équipe de recherche de ByteDance. Il s'engage à explorer les technologies de pointe dans le domaine multimédia et à participer aux travaux de normalisation internationaux. Ses nombreux algorithmes innovants et solutions logicielles et matérielles ont été largement utilisés dans des produits tels que. comme Douyin et Xigua Video et fournit des services techniques aux entreprises clientes de Volcano Engine. Depuis la création du laboratoire, de nombreux articles ont été sélectionnés dans les meilleures conférences internationales et revues phares, et ont remporté plusieurs championnats de compétitions techniques internationales, des prix de l'innovation industrielle et des prix du meilleur article.

À l'avenir, l'équipe de recherche continuera d'optimiser les performances du modèle de rééchantillonnage d'images sous compression avec perte et d'explorer davantage des scénarios d'application plus complexes tels que le rééchantillonnage vidéo anti-compression et le rééchantillonnage à grossissement arbitraire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer