Heim >Technologie-Peripheriegeräte >KI >Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

PHPz
PHPzOriginal
2024-06-09 21:56:30353Durchsuche

Das Forschungsteam der Beihang-Universität nutzte ein Diffusionsmodell, um die Erde zu „replizieren“?

An jedem Ort auf der Welt kann das Modell Fernerkundungsbilder mit mehreren Auflösungen erzeugen und so reichhaltige und vielfältige „Parallelszenen“ erzeugen.

Und komplexe geografische Merkmale wie Gelände, Klima, Vegetation usw. werden berücksichtigt.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Inspiriert von Google Earth „lud“ das Forschungsteam von Beihang Satellitenfernerkundungsbilder der gesamten Erde aus der Vogelperspektive in ein tiefes neuronales Netzwerk.

Basierend auf einem solchen Netzwerk entwickelte das Team MetaEarth, ein globales Top-Down-Modell zur visuellen Generierung.

MetaEarth verfügt über 600 Millionen Parameter und kann Fernerkundungsbilder mit mehreren Auflösungen erzeugen, die unbegrenzt sind und jeden geografischen Standort auf der Welt abdecken.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Ein globales Fernerkundungsbildgenerierungsmodell

Im Vergleich zu früheren Untersuchungen ist der Aufbau eines weltweiten Basismodells zur visuellen Generierung anspruchsvoller und viele Schwierigkeiten wurden dabei überwunden.

Die Modellkapazität ist eine Herausforderung, da die Erde über eine Vielzahl geografischer Merkmale wie Städte, Wälder, Wüsten, Ozeane, Gletscher und Schneefelder verfügt, die vom Modell verstanden und dargestellt werden müssen.

Selbst die gleiche Art von künstlichen Merkmalen weist in verschiedenen Breitengraden, Klimazonen und kulturellen Umgebungen große Unterschiede auf, was hohe Anforderungen an die Kapazität des generierten Modells stellt.

MetaEarth hat diese Schwierigkeit erfolgreich gelöst und eine hochauflösende und groß angelegte Szenengenerierung an verschiedenen Standorten und Landformen erreicht.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Darüber hinaus ist auch die Erzeugung von Fernerkundungsbildern mit steuerbarer Auflösung eine Herausforderung.

Da bei der Overhead-Bildaufnahme die Anzeige von Bodenmerkmalen stark von der Auflösung abhängt, gibt es offensichtliche Unterschiede bei verschiedenen Bildauflösungen. Es ist schwierig, sie mit der angegebenen Auflösung (Meter/Pixel) genau zu erzeugen Fähigkeit.

Wenn MetaEarth Bilder mit unterschiedlichen Auflösungen generiert, können Oberflächenmerkmale genau und angemessen dargestellt werden, und die Korrelationen zwischen verschiedenen Auflösungen werden ebenfalls genau abgebildet.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Schließlich gibt es noch die Herausforderung der unbegrenzten Bilderzeugung – im Gegensatz zu alltäglichen natürlichen Bildern weisen Fernerkundungsbilder die Eigenschaften einer extrem breiten Breite auf und die Seitenlänge kann Zehntausende von Pixeln erreichen Methoden zur Erzeugung kontinuierlicher, unbegrenzter Bilder beliebiger Größe.

Aber die von MetaEarth erzeugte kontinuierliche, unbegrenzte Szene vermeidet diesen Fehler, und Sie können sehen, dass sich das Bild sehr reibungslos bewegt, wenn die „Linse“ verschoben wird.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Darüber hinaus verfügt MetaEarth über eine starke Generalisierungsleistung und kann Bilder mit mehreren Auflösungen in Kaskade mit unbekannten Szenen als bedingte Eingabe generieren.

Durch die Eingabe des von GPT4-V generierten „Pandora-Planeten“ als Ausgangsbedingung in das Modell ist MetaEarth beispielsweise weiterhin in der Lage, Bilder mit angemessener Verteilung von Bodenobjekten und realistischen Details zu erzeugen.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Die Verifizierungsergebnisse zu Downstream-Missionen zeigen, dass MetaEarth als brandneue Datenmaschine voraussichtlich virtuelle Umgebungs- und Trainingsdatenunterstützung für verschiedene Downstream-Missionen im Bereich der Erdbeobachtung bereitstellen wird.

Während des Experiments wählte der Autor die grundlegende Aufgabe der Fernerkundungsbildklassifizierung zur Verifizierung. Die Ergebnisse zeigen, dass mit Hilfe der von MetaEarth generierten hochwertigen Bilder die Klassifizierungsgenauigkeit nachgelagerter Aufgaben erheblich verbessert wurde.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

Der Autor glaubt, dass MetaEarth eine realistische virtuelle Umgebung für unbemannte Flugsystemplattformen wie Satelliten bieten soll und in den Bereichen Stadtplanung, Umweltüberwachung, Katastrophenmanagement, Agraroptimierung und anderen Bereichen weit verbreitet ist MetaEarth dient nicht nur als Datenmaschine, sondern bietet auch großes Potenzial für den Aufbau generativer Weltmodelle und bietet so neue Möglichkeiten für die zukünftige Forschung. .

Wie erreicht MetaEarth das?

600-Millionen-Parameter-Diffusionsmodell „repliziert“ die Erde

MetaEarth basiert auf dem probabilistischen Diffusionsmodell und hat eine Parameterskala von mehr als 600 Millionen.

Zur Unterstützung des Modelltrainings sammelte das Team einen großen Fernerkundungsbilddatensatz, der Bilder mit mehreren räumlichen Auflösungen und deren geografische Informationen (Breitengrad, Längengrad und Auflösung) enthält, die die meisten Regionen der Welt abdecken.

In dieser Studie schlagen die Autoren ein auflösungsgesteuertes, selbstkaskadierendes Generierungsframework vor.

Das Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt

△Der Gesamtrahmen von MetaEarth

Unter diesem Rahmen kann nur ein einziges Modell verwendet werden, um eine Bildgenerierung mit mehreren Auflösungen für einen bestimmten geografischen Standort zu erreichen und auf jeder Ebene reichhaltige und vielfältige „Parallelbilder“ zu erstellen Auflösung. Szenen".

Konkret handelt es sich hierbei um ein Codec-strukturiertes Rauschunterdrückungsnetzwerk, das die Kodierung von bedingten Bildern mit niedriger Auflösung und räumlicher Auflösung mit der Zeitschritt-Einbettung des Rauschunterdrückungsprozesses kombiniert, um das Rauschen in jedem Zeitschritt vorherzusagen und die Bilderzeugung zu implementieren.

Um unbegrenzte Bilder beliebiger Größe zu generieren, hat der Autor außerdem eine speichereffiziente Methode zur Erzeugung von Schiebefenstern und eine Strategie zur Rauschabtastung entwickelt.

Diese Strategie unterteilt das generierte Bild als Bedingung in überlappende Bildblöcke und verwendet eine spezielle Rauschabtaststrategie, um ähnliche Inhalte in den gemeinsamen Bereichen benachbarter Bildblöcke zu generieren und so Verbindungslücken zu vermeiden.

Darüber hinaus ermöglicht diese Rauschabtaststrategie dem Modell auch, weniger Videospeicherressourcen zu verbrauchen, wenn unbegrenzte Bilder beliebiger Größe generiert werden.

Teamprofil

Der Autor dieser Studie ist vom „Learning, Vision and Remote Sensing Laboratory, LEVIR Lab“ (LEarning, Vision and Remote Sensing Laboratory, LEVIR Lab) der Universität Beihang. Das Labor wird von Professor geleitet Shi Zhenwei, ein national angesehener junger Gelehrter.

Professor Zou Zhengxia, ein ehemaliger Doktorand von Professor Shi Zhenwei, Postdoktorand an der University of Michigan und derzeitiges Mitglied des Labors, ist der korrespondierende Autor dieses Artikels.

Papieradresse: https://www.php.cn/link/31bb2feb402ac789507479daf9713b00
Projekthomepage: https://www.php.cn/link/a0098fd07 db76 92267fca4f4169c9ba2

Das obige ist der detaillierte Inhalt vonDas Team der Universität Beihang hat die gesamte Erde in ein neuronales Netzwerk eingebunden und ein globales Fernerkundungsbilderzeugungsmodell eingeführt. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn