Maison >Périphériques technologiques >IA >En mettant la Terre entière dans un réseau neuronal, l'équipe de l'Université de Beihang a lancé un modèle mondial de génération d'images de télédétection

En mettant la Terre entière dans un réseau neuronal, l'équipe de l'Université de Beihang a lancé un modèle mondial de génération d'images de télédétection

PHPz
PHPzoriginal
2024-06-09 21:56:30353parcourir

L'équipe de recherche de l'Université Beihang a utilisé un modèle de diffusion pour « reproduire » la Terre ?

À n'importe quel endroit dans le monde, le modèle peut générer des images de télédétection de plusieurs résolutions, créant ainsi des « scènes parallèles » riches et diverses.

Et les caractéristiques géographiques complexes telles que le terrain, le climat, la végétation, etc. sont toutes prises en compte.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

Inspirée par Google Earth, l’équipe de recherche de l’Université de Beihang a « chargé » des images de télédétection satellitaire de la Terre entière dans un réseau neuronal profond depuis une perspective aérienne.

Sur la base d'un tel réseau, l'équipe a construit MetaEarth, un modèle global de génération visuelle descendante.

MetaEarth possède 600 millions de paramètres et peut générer des images de télédétection avec de multiples résolutions, illimitées et couvrant n'importe quel emplacement géographique dans le monde.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

Un modèle mondial de génération d'images de télédétection

Par rapport aux recherches précédentes, la construction d'un modèle mondial de génération visuelle de base est plus difficile et de nombreuses difficultés ont été surmontées au cours du processus.

La capacité du modèle est un défi car la Terre présente un large éventail de caractéristiques géographiques telles que des villes, des forêts, des déserts, des océans, des glaciers et des champs de neige, qui doivent être comprises et représentées par le modèle.

Même le même type de caractéristiques artificielles présentera d'énormes différences sous différentes latitudes, climats et environnements culturels, ce qui impose des exigences élevées sur la capacité du modèle généré.

MetaEarth a réussi à résoudre cette difficulté et à générer des scènes haute résolution et à grande échelle dans différents endroits et reliefs.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

De plus, générer des images de télédétection avec une résolution contrôlable est également un défi.

Parce que dans le processus d'imagerie d'image aérienne, l'affichage des caractéristiques du sol est grandement affecté par la résolution. Il existe des différences évidentes sous différentes résolutions d'image, il est difficile de générer avec précision à la résolution spécifiée (mètre/pixel) . Capacité.

Lorsque MetaEarth génère des images de différentes résolutions, elle peut présenter avec précision et raisonnablement les caractéristiques des objets au sol, et les corrélations entre les différentes résolutions sont également cartographiées avec précision.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

Enfin, il y a le défi de la génération d'images illimitées - contrairement aux images naturelles quotidiennes, les images de télédétection ont les caractéristiques d'une largeur ultra-large et la longueur des côtés peut atteindre des dizaines de milliers de pixels. méthodes pour générer des images continues et illimitées de n’importe quelle taille.

Mais la scène continue et illimitée générée par MetaEarth évite ce défaut, et vous pouvez voir que l'image se déplace très facilement lorsque la « lentille » est traduite.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

De plus, MetaEarth a de fortes performances de généralisation et peut générer en cascade des images multi-résolution en utilisant des scènes inconnues comme entrée conditionnelle.

Par exemple, en saisissant la « Planète Pandora » générée par GPT4-V comme condition initiale dans le modèle, MetaEarth est toujours capable de générer des images avec une répartition raisonnable des objets au sol et des détails réalistes.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

Les résultats de la vérification des missions en aval montrent que MetaEarth, en tant que tout nouveau moteur de données, devrait fournir un environnement virtuel et un support de données de formation pour diverses missions en aval dans le domaine de l'observation de la Terre.

Au cours de l'expérience, l'auteur a choisi la tâche de base de classification des images de télédétection pour vérification. Les résultats montrent qu'avec l'aide d'images de haute qualité générées par MetaEarth, la précision de la classification des tâches en aval a été considérablement améliorée.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

L'auteur estime que MetaEarth devrait fournir un environnement virtuel réaliste pour les plates-formes de systèmes aériens sans pilote telles que les satellites, et est largement utilisé dans l'urbanisme, la surveillance environnementale, la gestion des catastrophes, l'optimisation agricole et d'autres domaines

Dans ; En plus de servir de moteur de données, MetaEarth présente également un grand potentiel dans la construction de modèles mondiaux génératifs, offrant ainsi de nouvelles possibilités pour les recherches futures. .

Alors, comment MetaEarth y parvient-elle ?

Le modèle de diffusion de 600 millions de paramètres « reproduit » la Terre

MetaEarth est construit sur la base du modèle de diffusion probabiliste et a une échelle de paramètres de plus de 600 millions.

Pour soutenir la formation des modèles, l'équipe a collecté un vaste ensemble de données d'images de télédétection, contenant des images de plusieurs résolutions spatiales et leurs informations géographiques (latitude, longitude et résolution) couvrant la plupart des régions du monde.

Dans cette étude, les auteurs proposent un cadre de génération en cascade automatique guidé par résolution.

En mettant la Terre entière dans un réseau neuronal, léquipe de lUniversité de Beihang a lancé un modèle mondial de génération dimages de télédétection

△Le cadre global de MetaEarth

Dans ce cadre, un seul modèle peut être utilisé pour réaliser une génération d'images multi-résolution pour un emplacement géographique donné, et créer des « images parallèles » riches et diverses à chaque niveau de résolution. Scènes".

Plus précisément, il s'agit d'un réseau de débruitage structuré par codec qui combine l'image conditionnelle basse résolution et le codage de résolution spatiale avec l'intégration du pas de temps du processus de débruitage pour prédire le bruit à chaque pas de temps, mettre en œuvre la génération d'images.

Afin de générer des images illimitées de n'importe quelle taille, l'auteur a également conçu une méthode de génération de fenêtre coulissante et une stratégie d'échantillonnage de bruit économes en mémoire.

Cette stratégie divise l'image générée en blocs d'images superposés comme condition et utilise une stratégie d'échantillonnage de bruit spécifique pour générer un contenu similaire dans les zones partagées des blocs d'images adjacents, évitant ainsi les espaces d'épissage.

De plus, cette stratégie d'échantillonnage du bruit permet également au modèle de consommer moins de ressources de mémoire vidéo lors de la génération d'images illimitées de toute taille.

Profil de l'équipe

L'auteur de cette étude est issu du "Laboratoire d'apprentissage, de vision et de télédétection, LEVIR Lab" (Laboratoire d'apprentissage, de vision et de télédétection, LEVIR Lab) de l'Université de Beihang. Le laboratoire est dirigé par le professeur. Shi Zhenwei, un jeune chercheur national distingué.

Le professeur Zou Zhengxia, ancien doctorant du professeur Shi Zhenwei, boursier postdoctoral à l'Université du Michigan et membre actuel du laboratoire, est l'auteur correspondant de cet article.

Adresse papier : https://www.php.cn/link/31bb2feb402ac789507479daf9713b00
Page d'accueil du projet : https://www.php.cn/link/a0098fd07 db76 92267fca4f4169c9ba2

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn