recherche
MaisonPériphériques technologiquesIAArticle très bien noté CVPR 2024 : Nouveau cadre d'édition générative GenN2N, unifiant les tâches de conversion NeRF

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

La rubrique AIxiv de notre site Web est une rubrique sur le contenu académique et technique. Au cours des dernières années, la rubrique AIxiv de notre site Web a reçu plus de 2 000 contenus, couvrant les meilleurs laboratoires de grandes universités et entreprises du monde entier, contribuant ainsi à promouvoir les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. L'adresse e-mail de soumission est liyazhou@jiqizhixin.com ; zhaoyunfeng@jiqizhixin.com.


Des chercheurs de l'Université des sciences et technologies de Hong Kong et de l'Université Tsinghua ont proposé "GenN2N", un cadre de conversion génératif unifié NeRF en NeRF adapté à diverses tâches de conversion NeRF, telles que l'édition NeRF pilotée par texte, l'ombrage , super-résolution, réparation, etc., les performances sont extrêmement bonnes ! CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务

  • Adresse papier : https://arxiv.org/abs/2404.02788
  • Page d'accueil papier : https://xiangyueliu.github.io/GenN2N/
  • Git Adresse du hub : https://github.com/Lxiangyue/GenN2N
  • Titre de l'article : GenN2N : Generative NeRF2NeRF Translation

Ces dernières années, les champs de rayonnement neuronal (NeRF) ont attiré beaucoup d'attention en raison de leur compacité , de haute qualité et de polyvalence. Les domaines de la reconstruction 3D, de la génération 3D et de la synthèse de nouvelles perspectives ont attiré une large attention. Cependant, une fois qu'une scène NeRF est créée, ces méthodes manquent souvent de contrôle supplémentaire sur la géométrie et l'apparence résultantes. Par conséquent, NeRF Editing est récemment devenu un axe de recherche digne d’attention.

Les méthodes d'édition NeRF actuelles sont généralement spécifiques à des tâches, telles que l'édition basée sur le texte, la super-résolution, l'inpainting et la colorisation de NeRF. Ces méthodes nécessitent une grande quantité de connaissances dans un domaine spécifique à une tâche. Dans le domaine de l'édition d'images 2D, il est devenu courant de développer des méthodes universelles de conversion d'image en image. Par exemple, le modèle génératif 2D Stable Difussion est utilisé pour prendre en charge l'édition d'images multifonctionnelle. Par conséquent, nous proposons une édition NeRF universelle utilisant des modèles génératifs 2D sous-jacents.

Un défi qui vient avec cela est l'écart de représentation entre les images NeRF et 2D, d'autant plus que les éditeurs d'images génèrent souvent plusieurs modifications incohérentes pour différents points de vue. Une récente méthode d’édition NeRF basée sur du texte, Instruct-NeRF2NeRF, explore cela. Il adopte le processus « rendu-édition-agrégation » pour mettre à jour progressivement la scène NeRF en rendant progressivement des images multi-vues, en éditant ces images et en agrégeant les images modifiées dans NeRF. Cependant, cette méthode d'édition, après de nombreuses optimisations pour des besoins d'édition spécifiques, ne peut générer un résultat d'édition spécifique que si l'utilisateur n'est pas satisfait, des tentatives itératives doivent être répétées.

Par conséquent, nous avons proposé "GenN2N", un cadre général NeRF-to-NeRF adapté à une variété de tâches d'édition NeRF. Son cœur est d'utiliser une approche générative pour caractériser la nature multi-solutions du processus d'édition, afin qu'il puisse utiliser l'édition générative pour générer facilement un grand nombre de résultats d'édition qui répondent aux exigences de sélection des utilisateurs.

Dans la partie centrale de GenN2N, 1) le cadre génératif de 3D VAE-GAN est introduit, en utilisant VAE pour représenter l'ensemble de l'espace d'édition afin d'apprendre toutes les distributions d'édition NeRF 3D possibles correspondant à un ensemble d'images d'édition 2D d'entrée , et utilisez GAN pour fournir une supervision raisonnable pour l'édition de différentes vues de NeRF afin de garantir l'authenticité des résultats de l'édition 2) Utiliser l'apprentissage contrastif pour découpler le contenu d'édition et les perspectives afin de garantir la cohérence de l'édition du contenu entre les différentes perspectives 3) Pendant l'inférence. , l'utilisateur échantillonne simplement au hasard plusieurs codes d'édition à partir du modèle de génération conditionnelle peut générer divers résultats d'édition 3D correspondant à la cible d'édition.

Par rapport aux méthodes SOTA pour diverses tâches d'édition NeRF (ICCV2023 Oral, etc.), GenN2N est supérieure aux méthodes existantes en termes de qualité d'édition, de diversité, d'efficacité, etc.

Introduction à la méthode

Nous effectuons d'abord l'édition d'images 2D, puis mettons à niveau ces modifications 2D vers NeRF 3D pour obtenir une conversion générative NeRF en NeRF.

A. Distillation implicite (distillation latente)

Nous utilisons le module de distillation latente comme encodeur de VAE pour apprendre un code d'édition implicite pour chaque image modifiée et le transmettons dans la conversion NeRF en NeRF. contrôle le contenu généré. Tous les codes d'édition obéissent à une bonne distribution normale sous la contrainte de perte KL pour un meilleur échantillonnage. Afin de dissocier le contenu d'édition et la perspective, nous avons soigneusement conçu un apprentissage contrastif pour encourager les codes d'édition d'images avec le même style d'édition mais des perspectives différentes à être similaires, et les codes d'édition d'images avec des styles d'édition différents mais la même perspective à être loin. Loin les uns des autres.

Conversion B.NeRF-to-NeRF (Traduit NeRF)

Nous utilisons la traduction NeRF-to-NeRF comme décodeur de VAE, qui prend le code d'édition en entrée et modifie le NeRF original pour un NeRF converti. Nous avons ajouté des couches résiduelles entre les couches cachées du réseau NeRF d'origine. Ces couches résiduelles utilisent le code d'édition comme entrée pour moduler les neurones de la couche cachée, de sorte que le NeRF converti puisse non seulement conserver les informations NeRF d'origine, mais également contrôler la conversion 3D. basé sur le contenu d’édition. Dans le même temps, la traduction NeRF-to-NeRF sert également de générateur pour participer à une formation contradictoire générative. En générant plutôt qu'en optimisant, nous pouvons obtenir plusieurs résultats de conversion à la fois, améliorant considérablement l'efficacité de la conversion NeRF et la diversité des résultats.

C. Discriminateur conditionnel

Les images rendues converties en NeRF constituent l'espace de génération qu'il faut distinguer. Les styles d'édition et les perspectives de rendu de ces images sont différents, rendant l'espace de génération très complexe. . Par conséquent, nous fournissons une condition comme information supplémentaire pour le discriminateur. Plus précisément, lorsque le discriminateur identifie l'image rendue par le générateur CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (échantillon négatif) ou l'image modifiée CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 (échantillon positif) dans les données d'entraînement, nous sélectionnons une image modifiée CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务 de la même perspective à partir des données d'entraînement comme condition, ce qui empêche le Le discriminateur n'est pas gêné par des facteurs de perspective lors de la distinction des échantillons positifs et négatifs.

D. Inférence

Après l'optimisation GenN2N, les utilisateurs peuvent échantillonner de manière aléatoire les codes d'édition de la distribution normale et saisir le NeRF converti pour générer du code NeRF 3D multi-édité de haute qualité. scènes.

Expériences

Nous avons mené des expériences approfondies sur une variété de tâches NeRF à NeRF, notamment l'édition de texte NeRF, la colorisation, la super-résolution, l'inpainting, etc. Les résultats expérimentaux démontrent la qualité d’édition supérieure de GenN2N, la cohérence multi-vues, la diversité générée et l’efficacité de l’édition.

A. Édition NeRF basée sur du texte CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务B CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Expériences de comparaison CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务Notre méthode est comparée qualitativement et quantitativement à SO. Méthodes TA pour diverses tâches NeRF spécifiques ( y compris l'édition basée sur le texte, la colorisation, la super-résolution et l'inpainting, etc.). Les résultats montrent que GenN2N, en tant que cadre général, fonctionne aussi bien ou mieux que SOTA spécifique à une tâche, tandis que les résultats d'édition ont une plus grande diversité (ce qui suit est une comparaison entre GenN2N et Instruct-NeRF2NeRF sur la tâche d'édition NeRF basée sur du texte. ).

A. Édition NeRF basée sur du texteCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务
Pour plus d'expériences et de méthodes, veuillez vous référer à la page d'accueil du papier.

Présentation de l'équipe

Cet article provient de l'équipe Tan Ping de l'Université des sciences et technologies de Hong Kong, du laboratoire 3DVICI de l'Université Tsinghua, du laboratoire d'intelligence artificielle de Shanghai et de l'institut de recherche Qizhi de Shanghai. L'article est Liu, étudiant à l'Université des sciences et technologies de Hong Kong, Xiang Yue, Xue Han, étudiant à l'Université de Tsinghua, Luo Kunming, étudiant à l'Université des sciences et technologies de Hong Kong, et les instructeurs sont le professeur Yi Li de Tsinghua. Université et professeur Tan Ping de l'Université des sciences et technologies de Hong Kong.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer
Openai & # 039; S O1-Preview vs O1-MinI: Un pas en avant vers AGIOpenai & # 039; S O1-Preview vs O1-MinI: Un pas en avant vers AGIApr 12, 2025 am 10:04 AM

Introduction Le 12 septembre, OpenAI a publié une mise à jour intitulée «Apprendre à raisonner avec LLMS». Ils ont introduit le modèle O1, qui est formé en utilisant l'apprentissage du renforcement pour lutter contre les tâches de raisonnement complexes. Ce qui définit ce mod

Comment construire des jeux avec Openai O1? - Analytique VidhyaComment construire des jeux avec Openai O1? - Analytique VidhyaApr 12, 2025 am 10:03 AM

Introduction La famille des modèles Openai O1 fait progresser considérablement le pouvoir de raisonnement et les performances économiques, en particulier dans la science, le codage et la résolution de problèmes. L'objectif d'Openai est de créer des modèles d'IA et d'O1 toujours plus avancés

Outils d'agent LLM populaires pour la gestion des requêtes clientOutils d'agent LLM populaires pour la gestion des requêtes clientApr 12, 2025 am 10:01 AM

Introduction Aujourd'hui, le monde de la gestion des requêtes client évolue à un rythme sans précédent, avec de nouveaux outils faisant les gros titres chaque jour. Les agents du modèle de grande langue (LLM) sont la dernière innovation dans ce contexte, stimulant CU

Plan de mise en œuvre génératif de l'IA pour les entreprisesPlan de mise en œuvre génératif de l'IA pour les entreprisesApr 12, 2025 am 09:56 AM

Introduction L'adoption de l'IA générative peut être un voyage transformateur pour toute entreprise. Cependant, le processus de mise en œuvre du Genai peut souvent être lourd et déroutant. Rajendra Singh Pawar, président et co-fondateur de Niit Lim

Pixtral 12b vs qwen2-vl-72bPixtral 12b vs qwen2-vl-72bApr 12, 2025 am 09:52 AM

Introduction La révolution de l'IA a donné naissance à une nouvelle ère de créativité, où les modèles de texte à l'image redéfinissent l'intersection de l'art, du design et de la technologie. Pixtral 12b et Qwen2-VL-72B sont deux forces pionnières

Qu'est-ce que PaperQA et comment aide-t-il à la recherche scientifique?Qu'est-ce que PaperQA et comment aide-t-il à la recherche scientifique?Apr 12, 2025 am 09:51 AM

Introduction Avec l'avancement de l'IA, la recherche scientifique a connu une transformation massive. Des millions d'articles sont publiés chaque année sur différentes technologies et secteurs. Mais, naviguant sur cet océan d'informations à Ret

Datagemma: mise à la terre des LLM contre les hallucinations - Analytics VidhyaDatagemma: mise à la terre des LLM contre les hallucinations - Analytics VidhyaApr 12, 2025 am 09:46 AM

Introduction Les modèles de grandes langues transforment rapidement les industries - ils alimentent tout, du service client personnalisé en banque à la traduction linguistique en temps réel dans la communication mondiale. Ils peuvent répondre à la quête

Comment construire un système multi-agents avec Crewai et Olllama?Comment construire un système multi-agents avec Crewai et Olllama?Apr 12, 2025 am 09:44 AM

Introduction Vous ne voulez pas dépenser de l'argent pour les API ou êtes-vous préoccupé par la vie privée? Ou voulez-vous simplement exécuter des LLM localement? Ne t'inquiète pas; Ce guide vous aidera à construire des agents et des cadres multi-agents avec des LLMs locaux T

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Télécharger la version Mac de l'éditeur Atom

Télécharger la version Mac de l'éditeur Atom

L'éditeur open source le plus populaire

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.