Maison >Périphériques technologiques >IA >Un instantané peut restaurer une vidéo ! L'article AAAI 2023 propose un nouvel algorithme pour l'imagerie par compression d'instantanés
Cet article est réimprimé avec l'autorisation d'AI New Media Qubit (ID de compte public : QbitAI). Veuillez contacter la source pour la réimpression.
Avec le développement des algorithmes optiques, nous pouvons désormais « capturer » des signaux de haute dimension avec des capteurs de basse dimension.
Par exemple, il s'agit d'une "photo" que nous avons prise avec un capteur 2D, qui semble pleine de données bruitées :
Cependant, c'est grâce aux données contenues dans cette "photo", que l'on peut restituer une vidéo dynamique !
Cela semble magique, mais cela peut en effet être réalisé grâce à une méthode appelée Snapshot Compressive Imaging (Snapshot Compressive Imaging, SCI).
Cette méthode peut échantillonner des données de haute dimension sous forme de mesure bidimensionnelle, permettant ainsi une acquisition efficace de signaux visuels de haute dimension.
Prenons un appareil photo comme exemple. Bien qu'il s'agisse d'un capteur 2D, si vous trouvez un moyen d'ajouter un appareil de mesure à micromiroir numérique derrière l'objectif de l'appareil photo (Digital Micromirror Devices, DMD, il s'agit d'un appareil qui peut mesurer avec précision contrôler la source de lumière), il existe un moyen d'utiliser des caméras ordinaires pour effectuer des mesures de réduction de dimensionnalité sur des données de haute dimension, obtenir des données 2D simples, puis restaurer des signaux visuels 3D de haute dimension.
Par exemple, la fréquence d'images d'un appareil photo ordinaire est très faible et il ne peut prendre que quelques dizaines de photos par seconde (en supposant qu'il puisse prendre 30 photos).
Lorsque nous voulons filmer des objets en mouvement à grande vitesse, tant que nous ajoutons ce dispositif à micromiroir numérique à un appareil photo ordinaire, il compressera le signal vidéo le long de la dimension temporelle, et chaque fois qu'une photo est prise, plusieurs images ou même des dizaines d'images de photos (c'est-à-dire qu'une vidéo est restaurée) .
Supposons que le taux de compression prédéfini pour l'appareil à micromiroir numérique soit de 10. Ensuite, prendre une photo maintenant peut restaurer 10 photos (ou une vidéo contenant 10 images de photos), et la caméra La fréquence d'images a également été directement augmentée par 10 fois, et il peut prendre 300 photos en une seconde. Maintenant, la question se pose : comment récupérer le signal original de haute dimension à partir de ces données de mesure compressées de basse dimension contenant du bruit aussi efficacement que possible ?
Avec le développement du deep learning, divers algorithmes de reconstruction ont été proposés. Cependant, la précision et la stabilité des signaux reconstruits par ces algorithmes ne sont toujours pas suffisantes.
À cette fin, des chercheurs de l'
Université de Hong Kong, de l'Académie chinoise des sciences et de l'Université de Westlakeont proposé une méthode de modèles d'équilibre profond (DEQ) pour l'imagerie par compression d'instantanés vidéo, qui a été incluse dans l'AAAI 2023 :
Cette méthode améliore non seulement la précision et la stabilité de la reconstruction, mais optimise également davantage l'empreinte mémoire -
L'algorithme ne nécessite que de la
mémoire de niveau constantpendant l'entraînement et les tests, c'est-à-dire : lors de l'utilisation du deep learning, il l'espace mémoire consommé ne change pas avec la profondeur du réseau (alors que lorsqu'on utilise des méthodes d'optimisation traditionnelles, l'espace mémoire qu'il consomme ne change pas avec le nombre d'itérations) . Jetons un coup d’œil.
Quelle est la difficulté de l'imagerie par compression d'instantanés ?
Comme le montre la figure 1, le système SCI peut être divisé en deux parties, l'encodage matériel et le décodage logiciel :
△ Figure 1. Le système d'imagerie compressée Snapshot utilise des capteurs de faible dimension pour capturer des données de haute dimension. dans les mesures instantanées
Prenons l'exemple de la prise de vue vidéo. Grâce au codage matériel, le système SCI échantillonne les données vidéo et les compresse dans la dimension temporelle, puis un algorithme est utilisé pour reconstruire les données vidéo originales en haute dimension. Nous considérons ici le système vidéo SCI, comme le montre la vidéo 1. La partie supérieure de la vidéo montre les mesures de compression obtenues par la partie matérielle du système SCI, et la partie inférieure de la vidéo montre les résultats vidéo récupérés à l'aide du algorithme proposé dans l’article. De toute évidence, l'ensemble du processus d'imagerie doit résoudre un problème inverse :Comment récupérer une vidéo à partir de mesures compressées bruyantes
.Bien qu'il existe de nombreuses méthodes de reconstruction capables de résoudre le problème inverse de l'imagerie des lésions médullaires, chacune de ces méthodes présente ses propres inconvénients, comme le montre la figure 2 :
△Figure 2. Méthodes existantes des méthodes de reconstruction SCI et principaux problèmes
Parmi eux, l'algorithme d'optimisation traditionnel (a) a des performances limitées.
Avec le développement du deep learning, les réseaux profonds de bout en bout (b) et les méthodes de déploiement (c), bien qu'ils puissent améliorer les performances, souffrent inévitablement d'une mémoire croissante à mesure que la profondeur du réseau de couches augmente. exigences d'occupation, et le modèle doit être soigneusement conçu.
Plug and Play(PnP)Framework(d)Tout en bénéficiant des avantages de la régularisation basée sur les données et de l'optimisation itérative flexible, cet algorithme doit garantir des résultats précis grâce à des paramètres de paramétrage appropriés, et nécessite même certaines stratégies complexes pour obtenir des résultats satisfaisants. performance.
Par rapport à d'autres méthodes, l'article propose de nouveaux algorithmes DE-RNN et DE-GAP pour garantir la précision et la stabilité des résultats de reconstruction. Les performances des résultats de reconstruction peuvent converger vers un niveau supérieur, comme le montre la figure 3. Montré :
△ Figure 3. Comparaison des résultats de reconstruction entre DE-GAP et d'autres méthodes
De manière générale, les résultats de reconstruction des méthodes précédentes telles que RNN et PnP sont instables, et les performances se détériorent même à long terme itérations.
Cependant, les résultats de la reconstruction DE-GAP peuvent maintenir l'amélioration des performances à mesure que le nombre d'itérations augmente, et finalement converger vers un résultat stable.
Comment cela se fait-il ?
Afin de résoudre les problèmes des méthodes précédentes et de réaliser une reconstruction SCI plus avancée, cet article propose pour la première fois une nouvelle idée -
Utiliser le modèle DEQ pour résoudre le problème inverse de la question de reconstruction vidéo SCI.
Le modèle DEQ a été proposé pour la première fois en 2019 et est principalement utilisé dans les tâches de traitement du langage à séquence longue à grande échelle dans le traitement du langage naturel.
Comme le montre la figure 4, le modèle DEQ peut résoudre directement le point fixe dans le processus de propagation vers l'avant et vers l'arrière grâce à des méthodes de recherche de racine telles que la méthode d'itération de Newton, atteignant ainsi efficacement l'infini en utilisant uniquement un réseau profond. :
△ Figure 4. Méthode du point fixe pour résoudre le modèle DEQ (à gauche) et l'utilisation de la mémoire de niveau constant (à droite)
(La figure 4 est tirée de l'article : S. Bai et al, " Deep équilibre models », NeurIPS 2019.)
Plus précisément, cet article applique pour la première fois le modèle DEQ à deux cadres de reconstruction vidéo SCI existants : RNN et PnP.
L'effet est également très bon. RNN équivaut à réaliser un réseau infiniment profond en utilisant uniquement de la mémoire à niveau constant équivaut à réaliser une infinité d'étapes d'optimisation itératives et à résoudre directement le point fixe pendant le processus d'optimisation itératif.
Comme le montre la figure 5, l'article conçoit des fonctions itératives combinées avec le modèle DEQ pour RNN et PnP respectivement, où x est le résultat de la reconstruction, y est la mesure de compression et Φ est la matrice de mesure :
△Figure 5. Les fonctions itératives de RNN et PnP combinées respectivement avec le modèle DEQ
(veuillez consulter l'article pour plus de détails sur le processus de dérivation spécifique et la propagation vers l'avant et vers l'arrière)
L'article a mené des expériences sur six ensembles de données SCI classiques et des données réelles. Par rapport aux méthodes précédentes, les résultats globaux de reconstruction sont meilleurs.
Comme le montre le tableau 1, en moyenne, cette méthode permet d'obtenir une amélioration d'environ 0,1 dB du PSNR et d'environ 0,04 amélioration du SSIM. L'amélioration du SSIM montre que cette méthode peut reconstruire des images avec des structures relativement fines :
△ Tableau 1. PSNR (dB) et SSIM de différents algorithmes sur six jeux de données classiques de reconstruction vidéo SCI
Figure 6 C'est une comparaison des résultats de reconstruction de différents algorithmes sur des ensembles de données classiques, et la présentation de certains détails est plus fluide et plus claire :
△Figure 6
La figure 7 est une comparaison des résultats de reconstruction de différents algorithmes sur des données réelles, et l'effet est meilleur en comparaison :
△Figure 7
Plus de résultats expérimentaux peuvent être vu du papier.
À l'heure actuelle, le code papier est open source et les amis intéressés peuvent l'utiliser ~
(La vidéo d'explication de l'auteur est également jointe à la fin de l'article, qui explique les choses simples et en profondeur)
Adresse papier :
https://www.php.cn/link/b8002139cdde66b87638f7f91d169d96
Code adresse :
https ://www.php.cn/link /fa95123aa5f89781ed4e89a55eb2edcc
Vidéo d'explication du papier par l'auteur :
Anglais : bilibili.com/vidéo /BV1X54y1g7D9/
Chinois : https://www.bilibili.com/video/BV1V54y137QK/
Cantonais en plastique : https://www.bilibili.com/video/BV1224y1 G7ee/
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!