recherche
MaisonPériphériques technologiquesIAArticle très bien noté CVPR 2024 : Nouveau cadre d'édition générative GenN2N, unifiant les tâches de conversion NeRF

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

La rubrique AIxiv de notre site Web est une rubrique sur le contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de notre site Web a reçu plus de 2 000 contenus, couvrant les meilleurs laboratoires de grandes universités et entreprises du monde entier, contribuant ainsi à promouvoir les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. L'adresse e-mail de soumission est liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.


Des chercheurs de l'Université des sciences et technologies de Hong Kong et de l'Université Tsinghua ont proposé "GenN2N", un cadre de conversion génératif unifié NeRF en NeRF adapté à diverses tâches de conversion NeRF, telles que l'édition NeRF pilotée par texte, l'ombrage , super-résolution, réparation, etc., les performances sont extrêmement bonnes ! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • Adresse papier : https://arxiv.org/abs/2404.02788
  • Page d'accueil papier : https://xiangyueliu.github.io/GenN2N/
  • Git Adresse du hub : https://github.com/Lxiangyue/GenN2N
  • Titre de l'article : GenN2N : Generative NeRF2NeRF Translation

Ces dernières années, les champs de rayonnement neuronal (NeRF) ont attiré beaucoup d'attention en raison de leur compacité , de haute qualité et de polyvalence. Les domaines de la reconstruction 3D, de la génération 3D et de la synthèse de nouvelles perspectives ont attiré une large attention. Cependant, une fois qu'une scène NeRF est créée, ces méthodes manquent souvent de contrôle supplémentaire sur la géométrie et l'apparence résultantes. Par conséquent, NeRF Editing est récemment devenu un axe de recherche digne d’attention.

Les méthodes d'édition NeRF actuelles sont généralement spécifiques à des tâches, telles que l'édition basée sur le texte, la super-résolution, l'inpainting et la colorisation de NeRF. Ces méthodes nécessitent une grande quantité de connaissances dans un domaine spécifique à une tâche. Dans le domaine de l'édition d'images 2D, il est devenu courant de développer des méthodes universelles de conversion d'image en image. Par exemple, le modèle génératif 2D Stable Difussion est utilisé pour prendre en charge l'édition d'images multifonctionnelle. Par conséquent, nous proposons une édition NeRF universelle utilisant des modèles génératifs 2D sous-jacents.

Un défi qui vient avec cela est l'écart de représentation entre les images NeRF et 2D, d'autant plus que les éditeurs d'images génèrent souvent plusieurs modifications incohérentes pour différents points de vue. Une récente méthode d’édition NeRF basée sur du texte, Instruct-NeRF2NeRF, explore cela. Il adopte le processus « rendu-édition-agrégation » pour mettre à jour progressivement la scène NeRF en rendant progressivement des images multi-vues, en éditant ces images et en agrégeant les images modifiées dans NeRF. Cependant, cette méthode d'édition, après de nombreuses optimisations pour des besoins d'édition spécifiques, ne peut générer un résultat d'édition spécifique que si l'utilisateur n'est pas satisfait, des tentatives itératives doivent être répétées.

Par conséquent, nous avons proposé "GenN2N", un cadre général NeRF-to-NeRF adapté à une variété de tâches d'édition NeRF. Son cœur est d'utiliser une approche générative pour caractériser la nature multi-solutions du processus d'édition, afin qu'il puisse utiliser l'édition générative pour générer facilement un grand nombre de résultats d'édition qui répondent aux exigences de sélection des utilisateurs.

Dans la partie centrale de GenN2N, 1) le cadre génératif de 3D VAE-GAN est introduit, en utilisant VAE pour représenter l'ensemble de l'espace d'édition afin d'apprendre toutes les distributions d'édition NeRF 3D possibles correspondant à un ensemble d'images d'édition 2D d'entrée , et utilisez GAN pour fournir une supervision raisonnable pour l'édition de différentes vues de NeRF afin de garantir l'authenticité des résultats de l'édition 2) Utiliser l'apprentissage contrastif pour découpler le contenu d'édition et les perspectives afin de garantir la cohérence de l'édition du contenu entre les différentes perspectives 3) Pendant l'inférence. , l'utilisateur échantillonne simplement au hasard plusieurs codes d'édition à partir du modèle de génération conditionnelle peut générer divers résultats d'édition 3D correspondant à la cible d'édition.

Par rapport aux méthodes SOTA pour diverses tâches d'édition NeRF (ICCV2023 Oral, etc.), GenN2N est supérieure aux méthodes existantes en termes de qualité d'édition, de diversité, d'efficacité, etc.

Introduction à la méthode

Nous effectuons d'abord l'édition d'images 2D, puis mettons à niveau ces modifications 2D vers NeRF 3D pour obtenir une conversion générative NeRF en NeRF.

A. Distillation implicite (distillation latente)

Nous utilisons le module de distillation latente comme encodeur de VAE pour apprendre un code d'édition implicite pour chaque image modifiée et le transmettons dans la conversion NeRF en NeRF. contrôle le contenu généré. Tous les codes d'édition obéissent à une bonne distribution normale sous la contrainte de perte KL pour un meilleur échantillonnage. Afin de dissocier le contenu d'édition et la perspective, nous avons soigneusement conçu un apprentissage contrastif pour encourager les codes d'édition d'images avec le même style d'édition mais des perspectives différentes à être similaires, et les codes d'édition d'images avec des styles d'édition différents mais la même perspective à être loin. Loin les uns des autres.

Conversion B.NeRF-to-NeRF (Traduit NeRF)

Nous utilisons la traduction NeRF-to-NeRF comme décodeur de VAE, qui prend le code d'édition en entrée et modifie le NeRF original pour un NeRF converti. Nous avons ajouté des couches résiduelles entre les couches cachées du réseau NeRF d'origine. Ces couches résiduelles utilisent le code d'édition comme entrée pour moduler les neurones de la couche cachée, de sorte que le NeRF converti puisse non seulement conserver les informations NeRF d'origine, mais également contrôler la conversion 3D. basé sur le contenu d’édition. Dans le même temps, la traduction NeRF-to-NeRF sert également de générateur pour participer à une formation contradictoire générative. En générant plutôt qu'en optimisant, nous pouvons obtenir plusieurs résultats de conversion à la fois, améliorant considérablement l'efficacité de la conversion NeRF et la diversité des résultats.

C. Discriminateur conditionnel

Les images rendues converties en NeRF constituent l'espace de génération qu'il faut distinguer. Les styles d'édition et les perspectives de rendu de ces images sont différents, rendant l'espace de génération très complexe. . Par conséquent, nous fournissons une condition comme information supplémentaire pour le discriminateur. Plus précisément, lorsque le discriminateur identifie l'image rendue par le générateur CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (échantillon négatif) ou l'image modifiée CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (échantillon positif) dans les données d'entraînement, nous sélectionnons une image modifiée CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 de la même perspective à partir des données d'entraînement comme condition, ce qui empêche le Le discriminateur n'est pas gêné par des facteurs de perspective lors de la distinction des échantillons positifs et négatifs.

D. Inférence

Après l'optimisation GenN2N, les utilisateurs peuvent échantillonner de manière aléatoire les codes d'édition de la distribution normale et saisir le NeRF converti pour générer du code NeRF 3D multi-édité de haute qualité. scènes.

Expériences

Nous avons mené des expériences approfondies sur une variété de tâches NeRF à NeRF, notamment l'édition de texte NeRF, la colorisation, la super-résolution, l'inpainting, etc. Les résultats expérimentaux démontrent la qualité d’édition supérieure de GenN2N, la cohérence multi-vues, la diversité générée et l’efficacité de l’édition.

A. Édition NeRF basée sur du texte CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Expériences de comparaison CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Notre méthode est comparée qualitativement et quantitativement à SO. Méthodes TA pour diverses tâches NeRF spécifiques ( y compris l'édition basée sur le texte, la colorisation, la super-résolution et l'inpainting, etc.). Les résultats montrent que GenN2N, en tant que cadre général, fonctionne aussi bien ou mieux que SOTA spécifique à une tâche, tandis que les résultats d'édition ont une plus grande diversité (ce qui suit est une comparaison entre GenN2N et Instruct-NeRF2NeRF sur la tâche d'édition NeRF basée sur du texte. ).

A. Édition NeRF basée sur du texteCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
Pour plus d'expériences et de méthodes, veuillez vous référer à la page d'accueil du papier.

Présentation de l'équipe

Cet article provient de l'équipe Tan Ping de l'Université des sciences et technologies de Hong Kong, du laboratoire 3DVICI de l'Université Tsinghua, du laboratoire d'intelligence artificielle de Shanghai et de l'institut de recherche Qizhi de Shanghai. L'article est Liu, étudiant à l'Université des sciences et technologies de Hong Kong, Xiang Yue, Xue Han, étudiant à l'Université de Tsinghua, Luo Kunming, étudiant à l'Université des sciences et technologies de Hong Kong, et les instructeurs sont le professeur Yi Li de Tsinghua. Université et professeur Tan Ping de l'Université des sciences et technologies de Hong Kong.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Les dangers cachés du déploiement interne de l'IA: lacunes de gouvernance et risques catastrophiquesLes dangers cachés du déploiement interne de l'IA: lacunes de gouvernance et risques catastrophiquesApr 28, 2025 am 11:12 AM

Le déploiement interne non contrôlé des systèmes d'IA avancés présente des risques importants, selon un nouveau rapport d'Apollo Research. Ce manque de surveillance, répandu parmi les grandes entreprises d'IA, permet des résultats catastrophiques potentiels, allant de peu

Construire le polygraphe AIConstruire le polygraphe AIApr 28, 2025 am 11:11 AM

Les détecteurs de mensonges traditionnels sont dépassés. S'appuyant sur le pointeur connecté par le bracelet, un détecteur de mensonge qui imprime les signes vitaux et les réactions physiques du sujet n'est pas précis pour identifier les mensonges. C'est pourquoi les résultats de détection de mensonge ne sont généralement pas adoptés par le tribunal, bien que cela ait conduit à de nombreuses personnes innocentes emprisonnées. En revanche, l'intelligence artificielle est un puissant moteur de données, et son principe de travail est d'observer tous les aspects. Cela signifie que les scientifiques peuvent appliquer l'intelligence artificielle aux applications qui recherchent la vérité de diverses manières. Une approche consiste à analyser les réponses des signes vitaux de la personne interrogée comme un détecteur de mensonge, mais avec une analyse comparative plus détaillée et précise. Une autre approche consiste à utiliser le balisage linguistique pour analyser ce que les gens disent réellement et utiliser la logique et le raisonnement. Comme le dit le dicton, un mensonge engendre un autre mensonge, et finalement

L'IA est-elle autorisée pour le décollage dans l'industrie aérospatiale?L'IA est-elle autorisée pour le décollage dans l'industrie aérospatiale?Apr 28, 2025 am 11:10 AM

L'industrie aérospatiale, pionnière de l'innovation, tire parti de l'IA pour relever ses défis les plus complexes. La complexité croissante de l'Aviation moderne nécessite l'automatisation de l'IA et les capacités d'intelligence en temps réel pour une sécurité améliorée, un fonctionnement réduit

Regarder la course de robot de printemps de PékinRegarder la course de robot de printemps de PékinApr 28, 2025 am 11:09 AM

Le développement rapide de la robotique nous a apporté une étude de cas fascinante. Le robot N2 de Noetix pèse plus de 40 livres et mesure 3 pieds de haut et pourrait être en mesure de se retourner. Le robot G1 de Uniree pèse environ deux fois la taille du N2 et mesure environ 4 pieds de haut. Il existe également de nombreux petits robots humanoïdes qui participent à la compétition, et il y a même un robot qui est poussé par un fan. Interprétation des données Le demi-marathon a attiré plus de 12 000 spectateurs, mais seulement 21 robots humanoïdes ont participé. Bien que le gouvernement ait souligné que les robots participants ont mené une "formation intensive" avant le concours, tous les robots n'ont pas terminé l'ensemble de la compétition. Champion - Tiangong Ult développé par Pékin Humanoid Robot Innovation Center

Le piège miroir: l'éthique de l'IA et l'effondrement de l'imagination humaineLe piège miroir: l'éthique de l'IA et l'effondrement de l'imagination humaineApr 28, 2025 am 11:08 AM

L'intelligence artificielle, dans sa forme actuelle, n'est pas vraiment intelligente; Il est apte à imiter et à affiner les données existantes. Nous ne créons pas de l'intelligence artificielle, mais plutôt une inférence artificielle - qui traite qui traitent les informations, tandis que les humains

La nouvelle fuite Google révèle la mise à jour des fonctionnalités de Google PhotosLa nouvelle fuite Google révèle la mise à jour des fonctionnalités de Google PhotosApr 28, 2025 am 11:07 AM

Un rapport a révélé qu'une interface mise à jour était masquée dans le code de Google Photos Android version 7.26, et chaque fois que vous visualisez une photo, une rangée de miniatures de visage nouvellement détectées s'affiche en bas de l'écran. Les nouvelles miniatures faciales manquent de balises de nom, donc je soupçonne que vous devez cliquer sur eux individuellement pour voir plus d'informations sur chaque personne détectée. Pour l'instant, cette fonctionnalité ne fournit aucune information autre que les personnes que Google Photos a trouvées dans vos images. Cette fonctionnalité n'est pas encore disponible, nous ne savons donc pas comment Google l'utilisera avec précision. Google peut utiliser des miniatures pour accélérer la recherche de plus de photos de personnes sélectionnées, ou peut être utilisée à d'autres fins, comme la sélection de l'individu à modifier. Attendons et voyons. Pour l'instant

Guide du renforcement Finetuning - Analytics VidhyaGuide du renforcement Finetuning - Analytics VidhyaApr 28, 2025 am 09:30 AM

Le renforcement de la fintuning a secoué le développement de l'IA en enseignant les modèles à s'ajuster en fonction de la rétroaction humaine. Il mélange des fondations d'apprentissage supervisées avec des mises à jour basées sur la récompense pour les rendre plus sûres, plus précises et vraiment aider

Dançon: mouvement structuré pour affiner nos filets neuronaux humainsDançon: mouvement structuré pour affiner nos filets neuronaux humainsApr 27, 2025 am 11:09 AM

Les scientifiques ont largement étudié les réseaux de neurones humains et plus simples (comme ceux de C. elegans) pour comprendre leur fonctionnalité. Cependant, une question cruciale se pose: comment adapter nos propres réseaux de neurones pour travailler efficacement aux côtés de nouvelles IA

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Adaptateur de serveur SAP NetWeaver pour Eclipse

Adaptateur de serveur SAP NetWeaver pour Eclipse

Intégrez Eclipse au serveur d'applications SAP NetWeaver.

SublimeText3 version anglaise

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.