Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire !-IA-php.cn

Maison

Périphériques technologiques

Open source! Au-delà de ZoeDepth ! DepthFM : estimation rapide et précise de la profondeur monoculaire !

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 03, 2024 pm 12:04 PM

数据训练

0. A quoi sert cet article ?

Proposed DepthFM : Un modèle d'estimation de profondeur monoculaire génératif de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur. DepthFM est efficace et peut synthétiser des cartes de profondeur en quelques étapes d'inférence.

Lisons cet ouvrage ensemble~

1. Informations papier

Titre : DepthFM : Fast Monocular Depth Estimation with Flow Matching

Auteurs : Ming Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer

Institution : MCML

Lien original : https://arxiv.org/abs/2403.13788

Lien code : https://github.com/ CompVis/degree -fm

Page d'accueil officielle : https://degreefm.github.io/

2 Abstract

est essentielle pour de nombreuses tâches et applications touristiques en aval. Les méthodes discriminantes actuelles pour ce problème sont limitées par des artefacts de flou, tandis que les méthodes génératives de pointe souffrent d'une vitesse d'échantillonnage d'apprentissage lente en raison de leur nature SDE. Au lieu de commencer par le bruit, nous recherchons un mappage direct de l’image d’entrée vers l’image de profondeur. Nous observons que cela peut être construit efficacement par correspondance de flux, car sa trajectoire droite dans l'espace de solution offre efficacité et haute qualité. Notre étude montre que les modèles de diffusion d'images pré-entraînés peuvent être utilisés comme connaissances préalables suffisantes pour les modèles approfondis d'appariement de flux. Sur des benchmarks de scènes naturelles complexes, notre approche légère démontre des performances de pointe à un coût de calcul avantageusement faible, bien qu'elle ait été formée sur seulement une petite quantité de données synthétiques.

3. Démonstration d'effet

DepthFM est un modèle de correspondance de flux d'inférence rapide avec une forte capacité de généralisation sans tir, qui peut utiliser de solides connaissances préalables et se généraliser facilement à des images réelles inconnues. Après un entraînement sur des données synthétiques, le modèle se généralise bien aux images réelles inconnues et correspond avec précision aux images de profondeur.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

Comparé à d'autres modèles de pointe, DepthFM obtient des images nettement plus claires avec une seule évaluation de fonction. L'estimation de la profondeur de Marigold prend deux fois plus de temps que celle de DethFM, mais elle ne peut pas générer de cartes de profondeur avec la même granularité.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

4. Principales contributions

(1) Proposition de DepthFM, un modèle d'estimation de profondeur monoculaire de pointe, polyvalent et rapide. En plus des tâches traditionnelles d'estimation de la profondeur, DepthFM démontre également des capacités de pointe dans les tâches en aval telles que l'inpainting en profondeur et la synthèse d'images conditionnées en profondeur.

(2) démontre le transfert réussi d'images a priori fortes des modèles de diffusion vers des modèles de correspondance de flux avec peu de dépendance aux données d'entraînement et sans besoin d'images du monde réel.

(3) montre que le modèle d'appariement de flux est efficace et peut synthétiser des cartes de profondeur en une seule étape d'inférence.

(4) Bien qu'il soit formé uniquement sur des données synthétiques, DepthFM fonctionne bien sur des ensembles de données de référence et des images naturelles.

(5) Utilisez la perte normale de surface comme cible auxiliaire pour obtenir une estimation plus précise de la profondeur.

(6) En plus de l'estimation de la profondeur, la confiance de sa prédiction peut également être prédite de manière fiable.

5. Quel est le principe spécifique ?

Pipeline de formations. La formation est limitée par l'appariement de flux et la perte normale de surface : pour l'appariement de flux, l'appariement de flux dépendant des données est utilisé pour régresser le champ vectoriel entre la profondeur de vérité terrain et l'image correspondante. De plus, le réalisme géométrique est obtenu grâce à une perte de normale de surface.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

Correspondance de flux liée aux données : DepthFM régresse le champ vectoriel en ligne droite entre la distribution d'image et la distribution de profondeur en utilisant des paires image/profondeur. Cette approche favorise un raisonnement efficace en plusieurs étapes sans sacrifier les performances.

Affinement des priorités de diffusion : Les auteurs démontrent un transfert réussi de puissantes priorités d'images d'un modèle de diffusion de synthèse d'images de base (Stable Diffusion v2-1) vers un modèle d'appariement de flux avec peu de dépendance aux données d'entraînement et sans besoin de réel -Image du monde.

Perte normale de surface auxiliaire : Étant donné que DepthFM est uniquement formé sur des données synthétiques et que la plupart des ensembles de données synthétiques fournissent des normales de surface de vérité terrain, la perte normale de surface est utilisée comme cible auxiliaire pour améliorer la précision de l'estimation de la profondeur de DepthFM.

6. Résultats expérimentaux

DepthFM démontre des capacités de généralisation significatives en s'entraînant sur seulement 63 000 échantillons purement synthétiques et est capable d'estimer la profondeur sans tir sur des ensembles de données intérieurs et extérieurs. Le tableau 1 montre qualitativement la comparaison des performances de DepthFM avec les modèles correspondants de pointe. Alors que d'autres modèles s'appuient souvent sur de grands ensembles de données pour la formation, DepthFM exploite la richesse des connaissances inhérentes au modèle sous-jacent basé sur la diffusion. Cette méthode permet non seulement d'économiser des ressources informatiques, mais met également l'accent sur l'adaptabilité et l'efficacité de la formation du modèle.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

Comparaison de l'estimation de la profondeur du souci basée sur la diffusion, du benchmark Flow Matching (FM) et du modèle DepthFM. Chaque méthode est évaluée en utilisant un seul membre d'ensemble et avec un nombre variable d'évaluations de fonctions (NFE) sur deux ensembles de données de référence communs. Par rapport à la ligne de base FM, DepthFM intègre la perte normale et le couplage dépendant des données pendant l'entraînement.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

Résultats qualitatifs pour les modèles Marigold et DepthFM dans différents nombres d'évaluations fonctionnelles. Il convient de noter que Marigold ne donne aucun résultat significatif par inférence en une seule étape, alors que les résultats de DepthFM montrent déjà la véritable carte de profondeur.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

Achèvement en profondeur sur Hypersim. Gauche : Donner un peu de profondeur. Moyenne : Profondeur estimée à partir de la profondeur partielle donnée. À droite : la vraie profondeur.

开源！超越ZoeDepth！ DepthFM：快速且精确的单目深度估计！

7. Résumé

DepthFM, une méthode de correspondance de flux pour l'estimation de la profondeur monoculaire. En apprenant un mappage direct entre l'image d'entrée et la profondeur, plutôt que de débruiter une distribution normale dans une carte de profondeur, cette approche est nettement plus efficace que les solutions actuelles basées sur la diffusion tout en fournissant des cartes de profondeur à grain fin sans artefacts communs du paradigme discriminatif. . DepthFM utilise au préalable un modèle de diffusion d'images pré-entraîné, le transférant efficacement vers un modèle de correspondance de flux profond. Par conséquent, DepthFM n'est formé que sur des données synthétiques mais se généralise toujours bien aux images naturelles lors de l'inférence. De plus, il a été démontré que la perte normale de surface auxiliaire améliore l’estimation de la profondeur. L'approche légère de DepthFM est compétitive, rapide et fournit des estimations de confiance fiables.

Les lecteurs intéressés par plus de résultats expérimentaux et de détails sur l'article peuvent lire l'article original

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer

Article connexe

Comment construire votre assistant d'IA personnel avec HuggingFace SmollmApr 18, 2025 am 11:52 AM

Exploiter la puissance de l'IA sur disvise: construire une CLI de chatbot personnelle Dans un passé récent, le concept d'un assistant d'IA personnel semblait être une science-fiction. Imaginez Alex, un passionné de technologie, rêvant d'un compagnon d'IA intelligent et local - celui qui ne dépend pas

L'IA pour la santé mentale est attentivement analysée via une nouvelle initiative passionnante à l'Université de StanfordApr 18, 2025 am 11:49 AM

Leur lancement inaugural de l'AI4MH a eu lieu le 15 avril 2025, et le Dr Tom Insel, M.D., célèbre psychiatre et neuroscientifique, a été le conférencier de lancement. Le Dr Insel est réputé pour son travail exceptionnel dans la recherche en santé mentale et la techno

La classe de draft de la WNBA 2025 entre dans une ligue qui grandit et luttant sur le harcèlement en ligneApr 18, 2025 am 11:44 AM

"Nous voulons nous assurer que la WNBA reste un espace où tout le monde, les joueurs, les fans et les partenaires d'entreprise, se sentent en sécurité, appréciés et autonomes", a déclaré Engelbert, abordé ce qui est devenu l'un des défis les plus dommageables des sports féminins. L'anno

Guide complet des structures de données intégrées Python - Analytics VidhyaApr 18, 2025 am 11:43 AM

Introduction Python excelle comme un langage de programmation, en particulier dans la science des données et l'IA générative. La manipulation efficace des données (stockage, gestion et accès) est cruciale lorsqu'il s'agit de grands ensembles de données. Nous avons déjà couvert les nombres et ST

Premières impressions des nouveaux modèles d'Openai par rapport aux alternativesApr 18, 2025 am 11:41 AM

Avant de plonger, une mise en garde importante: les performances de l'IA sont non déterministes et très usagées. En termes plus simples, votre kilométrage peut varier. Ne prenez pas cet article (ou aucun autre) article comme le dernier mot - au lieu, testez ces modèles sur votre propre scénario

Portfolio AI | Comment construire un portefeuille pour une carrière en IA?Apr 18, 2025 am 11:40 AM

Construire un portefeuille AI / ML hors concours: un guide pour les débutants et les professionnels La création d'un portefeuille convaincant est cruciale pour sécuriser les rôles dans l'intelligence artificielle (IA) et l'apprentissage automatique (ML). Ce guide fournit des conseils pour construire un portefeuille

Ce que l'IA agentique pourrait signifier pour les opérations de sécuritéApr 18, 2025 am 11:36 AM

Le résultat? L'épuisement professionnel, l'inefficacité et un écart d'élargissement entre la détection et l'action. Rien de tout cela ne devrait être un choc pour quiconque travaille en cybersécurité. La promesse d'une IA agentique est devenue un tournant potentiel, cependant. Cette nouvelle classe

Google contre Openai: la lutte contre l'IA pour les étudiantsApr 18, 2025 am 11:31 AM

Impact immédiat contre partenariat à long terme? Il y a deux semaines, Openai s'est avancé avec une puissante offre à court terme, accordant aux étudiants des États-Unis et canadiens d'accès gratuit à Chatgpt Plus jusqu'à la fin mai 2025. Cet outil comprend GPT - 4O, un A

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semainesByDDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semainesByDDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques moisBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel

MinGW - GNU minimaliste pour Windows

Ce projet est en cours de migration vers osdn.net/projects/mingw, vous pouvez continuer à nous suivre là-bas. MinGW : un port Windows natif de GNU Compiler Collection (GCC), des bibliothèques d'importation et des fichiers d'en-tête librement distribuables pour la création d'applications Windows natives ; inclut des extensions du runtime MSVC pour prendre en charge la fonctionnalité C99. Tous les logiciels MinGW peuvent fonctionner sur les plates-formes Windows 64 bits.

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Afficher plus

Sujets chauds

Où se trouve l’entrée de connexion pour la messagerie Gmail ?

7554

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus