Deep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign-KI-php.cn

Heim

Technologie-Peripheriegeräte

Deep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 08, 2023 pm 07:31 PM

深度学习图像分割

Dieser Artikel fasst die Innovationen in der Netzwerkstruktur bei der Verwendung von CNNs für die semantische Bildsegmentierung zusammen. Diese Innovationen umfassen hauptsächlich das Design neuer neuronaler Architekturen (unterschiedliche Tiefen, Breiten, Verbindungen und Topologien) und das Design neuer Komponenten oder Schichten. Ersteres nutzt vorhandene Komponenten, um komplexe groß angelegte Netzwerke aufzubauen, während letzteres lieber zugrunde liegende Komponenten entwirft. Zunächst stellen wir einige klassische semantische Segmentierungsnetzwerke und ihre Innovationen vor und stellen dann einige Anwendungen des Netzwerkstrukturdesigns im Bereich der medizinischen Bildsegmentierung vor.

1. Bildsemantische Netzwerkstrukturinnovation

1.1 FCN-Netzwerk

FCN-Gesamtarchitektur

Vereinfachtes DiagrammDas FCN-Netzwerk wird separat aufgeführt, da das FCN-Netzwerk das erste ist Ein Netzwerk, das semantische Segmentierungsprobleme aus einer völlig neuen Perspektive löst. Frühere semantische Bildsegmentierungsnetzwerke, die auf neuronalen Netzwerken basieren, verwenden Bildblöcke, die auf dem zu klassifizierenden Pixel zentriert sind, um die Bezeichnung des zentralen Pixels vorherzusagen. Das Netzwerk wird im Allgemeinen unter Verwendung einer CNN+FC-Strategie aufgebaut. Offensichtlich kann diese Methode die globalen Kontextinformationen nicht nutzen des Bildes, und die Pixel-für-Pixel-Überlegungsgeschwindigkeit ist sehr niedrig; während das FCN-Netzwerk die vollständig verbundene Schicht FC aufgibt und Faltungsschichten verwendet, um das Netzwerk aufzubauen Die Netzwerkausgabe ist direkt die Vorhersagemaske des Eingabebildes. Effizienz und Genauigkeit wurden erheblich verbessert. Schematische Darstellung der FCN-Feature-Fusion für verschiedene Layer 1.2 Codierungsstruktur (Encoder-Decoder)

Deep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign

SegNet

ist im Grunde die gleiche Idee wie das FCN-Netzwerk. Der Encoder-Teil verwendet die ersten 13 Faltungsschichten von VGG16. Der Unterschied liegt in der Upsampling-Methode des Decoder-Teils. FCN erhält das Upsampling-Ergebnis, indem es das Ergebnis der Dekonvertierung der Feature-Map zur Feature-Map der entsprechenden Größe des Encoders hinzufügt, während SegNet den Index des Maxpools des Encoder-Teils verwendet, um den Decoder-Teil (ursprüngliche Beschreibung: der Decoder) hochzusampeln führt ein Upsampling der Feature-Eingabekarten mit niedrigerer Auflösung durch. Insbesondere verwendet der Decoder Pooling-Indizes, die im Max-Pooling-Schritt des entsprechenden Encoders berechnet werden, um ein nichtlineares Upsampling durchzuführen. Innovationspunkte

: Encoder-Decoder-Struktur;

Vergleich der Upsample-Methode zwischen SegNet und FCN

Deep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign

U-Net-Netzwerk wurde ursprünglich für biomedizinische Bilder entwickelt, jedoch aufgrund seiner schlechten Leistung , jetzt UNet und seine Varianten werden in verschiedenen Teilbereichen des Lebenslaufs häufig eingesetzt. Das UNet-Netzwerk besteht aus einem U-Kanal und einer Skip-Verbindung. Der U-Kanal ähnelt der Kodierungs- und Dekodierungsstruktur von SegNet. Der Kodierungsteil (Kontrahierungspfad) führt die Merkmalsextraktion durch und erfasst Kontextinformationen, und der Dekodierungsteil (Erweiterungspfad). ) verwendet Dekodierungsfunktionen, um Pixelbeschriftungen vorherzusagen. Der Kurzschlusskanal verbessert die Modellgenauigkeit und löst das Problem des Verschwindens des Gradienten. Es ist besonders wichtig zu beachten, dass die oben verwendete Kurzschlusskanal-Feature-Map und die Feature-Map gespleißt und nicht addiert werden (im Gegensatz zu FCN).

Innovationspunkt

: U-förmige Struktur; Kurzschlusskanal (Sprungverbindung) Deep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign

U-Net-Netzwerk

- Die V-Net-Netzwerkstruktur ähnelt U-Net, mit der Ausnahme, dass die Architektur Sprungverbindungen hinzufügt und 2D-Operationen durch 3D-Operationen ersetzt, um 3D-Bilder (volumetrische Bilder) zu verarbeiten. Und optimiert für weit verbreitete Segmentierungsmetriken wie Dice.
V-Net-Netzwerk

Innovationspunkt : Äquivalent zur 3D-Version des U-Net-Netzwerks
- FC-DenseNet (Hundred-Layer Tiramisu Network) Titel: Das Hundert-Schichten-Tiramisu: Vollständig faltende dichte Netze für die semantische Segmentierung) Die Netzwerkstruktur besteht aus dichter Block- und UNet-Architektur. Die einfachste Version dieses Netzwerks besteht aus zwei Downsampling-Pfaden mit Übergang nach unten und zwei Upsampling-Pfaden mit Übergang nach oben. Es enthält außerdem zwei horizontale Sprungverbindungen, um die Feature-Map aus dem Downsampling-Pfad mit der entsprechenden Feature-Map im Upsampling-Pfad zu verbinden. Die Verbindungsmuster im Upsampling-Pfad und im Downsampling-Pfad sind nicht genau gleich: Im Downsampling-Pfad gibt es außerhalb jedes dichten Blocks einen Skip-Splicing-Pfad, was zu einem linearen Anstieg der Anzahl der Feature-Maps führt, während im Upsampling-Pfad ein linearer Anstieg der Anzahl der Feature-Maps auftritt Es gibt keine solche Operation. (Noch etwas: Die Abkürzung dieses Netzwerks kann Dense Unet sein, aber es gibt einen Artikel mit dem Titel „Fully Dense UNet for 2D Sparse Photoacoustic Tomography Artifact Removal“, bei dem es um die Entfernung von Artefakten in der photoakustischen Bildgebung geht. Ich habe viele Blogs gesehen, in denen dieser Artikel zitiert wurde . Die Abbildungen im Papier sprechen von semantischer Segmentierung, was überhaupt nicht dasselbe ist =_=||, Sie können es selbst unterscheiden)
FC-DenseNet (Hundred-Layer Tiramisu Network)

Innovationspunkt: Integration von DenseNet- und U-Net-Netzwerken (aus Sicht des Informationsaustauschs sind dichte Verbindungen tatsächlich leistungsfähiger als Reststrukturen)
- Deeplab-Seriennetzwerke werden basierend auf der verbesserten Kodierungs- und Dekodierungsstruktur vorgeschlagen In der Version 2018 schnitt das DeeplabV3+-Netzwerk bei den VOC2012- und Cityscapes-Datensätzen hervorragend ab und erreichte das SOTA-Niveau. Es gibt vier Artikel in der DeepLab-Reihe: V1, V2, V3 und V3+. Fassen Sie kurz die Kerninhalte einiger Artikel zusammen:
1) DeepLabV1: Fusion eines Faltungs-Neuronalen Netzwerks und eines Wahrscheinlichkeitsgraphenmodells: CNN+CRF, was die Segmentierungs- und Positionierungsgenauigkeit verbessert;

2) DeepLabV2: ASPP (Erweiterung Räumliches Pyramiden-Pooling); CNN+CRF

3) DeepLabV3: Verbessertes ASPP, Hinzufügen von 1*1-Faltung und globalem durchschnittlichem Pooling; verglichen mit kaskadiertem und parallelem atrous-Volumen-Kumulativer Effekt.

Cascade Atrous Convolution

Parallel Atrous Convolution (ASPP)

4) DeepLabV3+: Fügen Sie die Idee der Codec-Architektur hinzu und fügen Sie ein Decoder-Modul hinzu um DeepLabv3 zu erweitern; Wenden Sie in der Tiefe trennbare Faltungen auf ASPP- und Decoder-Module an. Verbessertes Xception als Backbone.

DeepLabV3+

Im Allgemeinen sind die Kernbeiträge der DeepLab-Serie: atrous Faltung; CNN+CRF (nur V1 und V2 verwenden CRF, es sollten V3 und V3+ sein, die die Segmentierungsgrenze durch lösen). tiefes Netzwerk Bei verschwommenen Problemen ist der Effekt besser als das Hinzufügen von CRF)
- PSPNet (Pyramid Scene Parsing Network) verbessert die Fähigkeit des Netzwerks, globale Kontextinformationen zu nutzen, indem Kontextinformationen in verschiedenen Bereichen aggregiert werden. In SPPNet werden die durch Pyramidenpooling generierten Feature-Maps verschiedener Ebenen schließlich abgeflacht und verkettet und dann zur Klassifizierung an die vollständig verbundene Ebene gesendet, wodurch die Einschränkung von CNN, die eine feste Eingabegröße für die Bildklassifizierung erfordert, entfällt. In PSPNet lautet die verwendete Strategie: Pooling-Conv-Upsample und dann gespleißt, um die Feature-Map zu erhalten, und dann eine Etikettenvorhersage durchführen.
PSPNET-Netzwerk

Innovationspunkte: multi-skaliertem Pooling, um globale Vorkenntnisse auf Bildebene zu nutzen, um komplexe Szenen zu verstehen. Dadurch können Multiskalenaktivierungen kombiniert und gleichzeitig ein Schärfeverlust verhindert werden. Das Netzwerk besteht aus unabhängigen Refine-Modulen, jedes Refine-Modul besteht aus drei Hauptmodulen, nämlich: Residual Convolutional Unit (RCU), Multi-Resolution Fusion (MRF) und Chain Residual Pooling (CRP). Die Gesamtstruktur ähnelt in gewisser Weise der von U-Net, es wurde jedoch eine neue Kombinationsmethode für die Sprungverbindung entwickelt (keine einfache Verbindung). Persönlich denke ich, dass diese Struktur tatsächlich sehr gut als Idee für Ihr eigenes Netzwerkdesign geeignet ist. Sie können viele CNN-Module hinzufügen, die in anderen CV-Problemen verwendet werden, und wenn Sie U-Net als Gesamtrahmen verwenden, wird der Effekt nicht allzu schlecht sein. ?? . Einige Methoden zur Vereinfachung der Struktur tiefer Netzwerke: Tensorzerlegung; Kanal-/Netzwerkbereinigung; Es gibt auch einige, die NAS (Neural Architecture Search) verwenden, um das manuelle Design zum Durchsuchen der Struktur von Modulen oder des gesamten Netzwerks zu ersetzen. Natürlich werden die von AutoDL benötigten GPU-Ressourcen viele Menschen abschrecken. Daher verwenden manche Leute die Zufallssuche, um nach viel kleineren ASPP-Modulen zu suchen und bauen dann das gesamte Netzwerkmodell auf der Grundlage der kleinen Module auf.
Leichtes Netzwerkdesign ist der Konsens in der Branche, dass es unmöglich ist, jede Maschine mit einem 2080ti auszustatten. Darüber hinaus schränken Stromverbrauch, Speicher und andere Probleme die Förderung und Anwendung des Modells ein. Wenn jedoch 5G populär wird, können alle Daten in der Cloud verarbeitet werden, was sehr interessant sein wird. Natürlich wissen wir kurzfristig (zehn Jahre) nicht, ob eine vollständige Einführung von 5G machbar ist.
- 1.4 Netzwerkstruktur basierend auf dem Aufmerksamkeitsmechanismus Der Aufmerksamkeitsmechanismus kann wie folgt definiert werden: Verwendung nachfolgender Layer-/Feature-Map-Informationen, um den wertendsten (oder hervorstechendsten) Teil der Eingabe-Feature-Map auszuwählen und zu lokalisieren. Es kann einfach als eine Möglichkeit zur Gewichtung von Feature-Maps betrachtet werden (die Gewichte werden über das Netzwerk berechnet und kann in Kanal-Aufmerksamkeitsmechanismus (CA) und räumlicher Aufmerksamkeitsmechanismus (PA) unterteilt werden). . Das FPA-Netzwerk (Feature Pyramid Attention) ist ein semantisches Segmentierungsnetzwerk, das auf dem Aufmerksamkeitsmechanismus basiert und den Aufmerksamkeitsmechanismus und die räumliche Pyramide kombiniert, um präzise Merkmale für die Kennzeichnung auf Pixelebene zu extrahieren, ohne dass Faltungs- und vom Menschen entworfene Decodernetzwerke verwendet werden.
1.5 Netzwerkstruktur basierend auf kontradiktorischem Lernen
Goodfellow et al. schlugen 2014 eine kontradiktorische Methode zum Erlernen tiefer generativer Modelle vor. In generativen kontradiktorischen Netzwerken (GANs) müssen zwei Modelle gleichzeitig trainiert werden: ein generatives Modell, das erfasst die Datenverteilung G und ein Unterscheidungsmodell D, das die Wahrscheinlichkeit schätzt, dass eine Stichprobe aus den Trainingsdaten stammt.

● G ist ein generatives Netzwerk, das ein zufälliges Rauschen z (Zufallszahl) empfängt und durch dieses Rauschen ein Bild generiert. ● D ist ein diskriminatives Netzwerk, das bestimmt, ob ein Bild „echt“ ist. Sein Eingabeparameter ist x (ein Bild), und die Ausgabe D(x) stellt die Wahrscheinlichkeit dar, dass x ein reales Bild ist. Wenn es 1 ist, bedeutet dies, dass 100 % ein reales Bild ist, und die Ausgabe ist 0, was bedeutet, dass es sich um ein reales Bild handelt kann nicht real sein.
Das Trainingsverfahren von G besteht darin, die Wahrscheinlichkeit eines D-Fehlers zu maximieren. Es kann bewiesen werden, dass es im Raum aller Funktionen G und D eine eindeutige Lösung gibt, sodass G die Trainingsdatenverteilung reproduziert und D = 0,5. Während des Trainingsprozesses besteht das Ziel des Generierungsnetzwerks G darin, zu versuchen, echte Bilder zu erzeugen, um das Diskriminanznetzwerk D zu täuschen. Das Ziel von D besteht darin, zu versuchen, die von G erzeugten gefälschten Bilder von den echten Bildern zu unterscheiden. Auf diese Weise stellen G und D einen dynamischen „Spielprozess“ dar, und der endgültige Gleichgewichtspunkt ist der Nash-Gleichgewichtspunkt. Für den Fall, dass G und D durch ein neuronales Netzwerk definiert werden, kann das gesamte System mit Backpropagation trainiert werden.

Illustration der GANs-NetzwerkstrukturInspiriert von GANs trainierten Luc et al. ein semantisches Segmentierungsnetzwerk (G) und ein gegnerisches Netzwerk (D). G) Segmentierungsdiagramm. G und D spielen weiterhin Spiele und lernen, und ihre Verlustfunktion ist definiert als:

GANs Verlustfunktion

Schauen Sie sich die ursprüngliche GAN-Verlustfunktion an: die Verlustfunktion von GANs verkörpern eine Null. Basierend auf der Idee und dem Spiel ist die Verlustfunktion der ursprünglichen GANs wie folgt:

Die Berechnungsposition des Verlusts liegt am Ausgang von D (Diskriminator) und dem Die Ausgabe von D ist im Allgemeinen eine falsche/wahre Beurteilung, sodass das Ganze wie oben betrachtet werden kann. Es wurde eine binäre Kreuzentropiefunktion verwendet. Aus der Form der Verlustfunktion von GANs ist ersichtlich, dass das Training in zwei Teile unterteilt ist:
Der erste ist der maxD-Teil, da beim Training im Allgemeinen zuerst D trainiert wird, während G (Generator) unverändert bleibt. Das Trainingsziel von D besteht darin, richtig/falsch zu unterscheiden. Wenn wir 1/0 verwenden, um wahr/falsch darzustellen, dann erwarten wir für das erste Element E, dass sich D(x) dem Wert 1 nähert, da die Eingabe aus realen Daten stammt , was bedeutet, dass die ersten Elemente größer sind. Auf die gleiche Weise tastet die Eingabe des zweiten Elements E die von G generierten Daten ab, sodass wir erwarten, dass D(G(z)) sich besser 0 nähert, was bedeutet, dass das zweite Element wieder größer ist. Dieser Teil ist also die Erwartung, dass das Training das Ganze größer machen wird, was die Bedeutung von maxD ist. Dieser Teil aktualisiert nur die Parameter von D.
Der zweite Teil behält D unverändert (keine Parameteraktualisierungen) und trainiert G. Zu diesem Zeitpunkt ist nur das zweite Element E nützlich. Der Schlüssel ist hier, weil wir D verwirren wollen, also setzen wir jetzt die Bezeichnung auf 1 (wir wissen, dass es sich um eine Fälschung handelt, daher wird es als Verwirrung bezeichnet. Es ist besser zu hoffen, dass die Ausgabe von D(G(z)) nahe bei 1 liegt, das heißt, je kleiner dieser Term ist, desto besser. Natürlich ist der Diskriminator nicht so leicht zu täuschen, daher wird der Diskriminator zu diesem Zeitpunkt einen relativ großen Fehler erzeugen, und dann wird G Sie nicht täuschen, also kann ich es tun Arbeiten Sie das nächste Mal nur härter. (Zitiert aus
https://www.cnblogs.com/walter-xh/p/10051634.html). Zu diesem Zeitpunkt werden nur die Parameter von G aktualisiert.
Wenn man GANs aus einer anderen Perspektive betrachtet, entspricht der Diskriminator (D) einer speziellen Verlustfunktion (bestehend aus einem neuronalen Netzwerk, anders als herkömmliche Verlustfunktionen wie L1, L2, Kreuzentropie usw.).
Darüber hinaus verfügen GANs über eine spezielle Trainingsmethode und es gibt Probleme wie das Verschwinden des Gradienten und den Zusammenbruch des Modus (derzeit scheint es eine Möglichkeit zu geben, dieses Problem zu lösen), aber sein Designkonzept ist in der Tat eine großartige Erfindung im Zeitalter von tiefes Lernen.
1.6 Zusammenfassung
Auf Deep Learning basierende Bildsemantiksegmentierungsmodelle folgen meist der Encoder-Decoder-Architektur, wie z. B. U-Net. Forschungsergebnisse der letzten Jahre haben gezeigt, dass erweiterte Faltung und Feature-Pyramiden-Pooling die Netzwerkleistung im U-Net-Stil verbessern können. In Abschnitt 2 fassen wir zusammen, wie diese Methoden und ihre Varianten auf die medizinische Bildsegmentierung angewendet werden können.
2. Anwendung von Netzwerkstrukturinnovationen in der medizinischen Bildsegmentierung
In diesem Teil werden einige Forschungsergebnisse zur Anwendung von Netzwerkstrukturinnovationen in der 2D/3D-medizinischen Bildsegmentierung vorgestellt.

2.1 Segmentierungsmethode basierend auf Modellkomprimierung

Um eine Echtzeitverarbeitung hochauflösender medizinischer 2D/3D-Bilder (wie CT-, MRT- und histopathologische Bilder usw.) zu erreichen, haben Forscher verschiedene Methoden zur Komprimierung vorgeschlagen Modelle. Weng et al. nutzten die NAS-Technologie zur Anwendung im U-Net-Netzwerk und erhielten ein kleines Netzwerk mit besserer Organ-/Tumorsegmentierungsleistung bei CT-, MRT- und Ultraschallbildern. Brugger hat die U-Net-Architektur neu gestaltet, indem er Gruppennormalisierung und Leaky-ReLU (Leaky-ReLU-Funktion) nutzte, um die Speichereffizienz des Netzwerks für die Segmentierung medizinischer 3D-Bilder effizienter zu gestalten. Einige Leute haben auch erweiterte Faltungsmodule mit weniger Parametern entworfen. Einige andere Modellkomprimierungsmethoden umfassen Gewichtsquantisierung (Sechzehn-Bit-, Acht-Bit-, Binärquantisierung), Destillation, Bereinigung usw.

2.2 Segmentierungsmethode der Kodierungs-Dekodierungsstruktur

Drozdal schlug eine Methode vor, die ein einfaches CNN anwendet, um das ursprüngliche Eingabebild zu normalisieren, bevor das Bild in das Segmentierungsnetzwerk eingespeist wird, was die Bildsegmentierung bei der Singleton-Mikroskopie, die Leber-CT und die Segmentierungsgenauigkeit der Prostata verbessert MRT. Gu schlug eine Methode zur Verwendung erweiterter Faltung im Backbone-Netzwerk vor, um Kontextinformationen beizubehalten. Vorontsov schlug ein Graph-zu-Graph-Netzwerk-Framework vor, das Bilder mit ROI in Bilder ohne ROI umwandelt (z. B. Bilder mit Tumoren werden in gesunde Bilder ohne Tumoren umgewandelt) und dann die vom Modell entfernten Tumore zu den neuen gesunden Bildern hinzugefügt . , um die detaillierte Struktur des Objekts zu erhalten. Zhou et al. schlugen eine Methode zur Neuverkabelung des U-Net-Netzwerks vor und führten diese an der Knotensegmentierung in Niedrigdosis-CT-Scans des Brustkorbs, der Kernsegmentierung in Mikroskopiebildern, der Lebersegmentierung in CT-Scans des Abdomens und der Koloskopie durch zu einer Polypensegmentierungsaufgabe im Untersuchungsvideo. Goyal wandte DeepLabV3 zur dermatoskopischen Farbbildsegmentierung an, um Bereiche mit Hautläsionen zu extrahieren.

2.3 Segmentierungsmethode basierend auf dem Aufmerksamkeitsmechanismus

Nie schlug ein Aufmerksamkeitsmodell vor, das die Prostata im Vergleich zu Basismodellen (V-Net und FCN) genauer segmentieren kann. SinHa schlug ein Netzwerk vor, das auf einem mehrschichtigen Aufmerksamkeitsmechanismus für die Segmentierung von Bauchorganen in MRT-Bildern basiert. Qin et al. schlugen ein erweitertes Faltungsmodul vor, um mehr Details medizinischer 3D-Bilder zu bewahren. Es gibt viele andere Veröffentlichungen zur Blutbildsegmentierung basierend auf Aufmerksamkeitsmechanismen.

2.4 Segmentierungsnetzwerk basierend auf kontradiktorischem Lernen

Khosravan schlug ein kontradiktorisches Trainingsnetzwerk für die Pankreassegmentierung anhand von CT-Scans vor. Son verwendet generative kontradiktorische Netzwerke zur Segmentierung von Netzhautbildern. Xue verwendet ein vollständig Faltungsnetzwerk als Segmentierungsnetzwerk in einem generativen kontradiktorischen Rahmen, um Hirntumoren aus MRT-Bildern zu segmentieren. Es gibt andere Artikel, die GANs erfolgreich auf medizinische Bildsegmentierungsprobleme anwenden, daher werde ich sie nicht einzeln auflisten.

2.5 RNN-basiertes Segmentierungsmodell

Rekurrentes neuronales Netzwerk (RNN) wird hauptsächlich zur Verarbeitung von Sequenzdaten verwendet. Das lange Kurzzeitgedächtnisnetzwerk (LSTM) ist eine verbesserte Version von LSTM, die den Gradientenfluss durch die Einführung von Selbstschleifen ermöglicht . Kann lange aufrechterhalten werden. Im Bereich der medizinischen Bildanalyse wird RNN zur Modellierung zeitlicher Abhängigkeiten in Bildsequenzen eingesetzt. Bin et al. schlugen einen Bildsequenz-Segmentierungsalgorithmus vor, der ein vollständig faltendes neuronales Netzwerk und RNN integriert und Informationen in der Zeitdimension in die Segmentierungsaufgabe einbezieht. Gao et al. verwendeten CNN und LSTM, um zeitliche Beziehungen in MRT-Schnittsequenzen des Gehirns zu modellieren und so die Segmentierungsleistung in 4D-Bildern zu verbessern. Li et al. verwendeten zunächst U-Net, um die anfängliche Segmentierungswahrscheinlichkeitskarte zu erhalten, und verwendeten dann LSTM, um die Bauchspeicheldrüse aus 3D-CT-Bildern zu segmentieren, was die Segmentierungsleistung verbesserte. Es gibt viele andere Artikel, die RNN für die Segmentierung medizinischer Bilder verwenden, daher werde ich sie nicht einzeln vorstellen.

2.6 Zusammenfassung

In diesem Teil des Inhalts geht es hauptsächlich um die Anwendung von Segmentierungsalgorithmen bei der medizinischen Bildsegmentierung, daher gibt es nicht viele Neuerungen. Er konzentriert sich hauptsächlich auf die Analyse von Daten in verschiedenen Formaten (CT oder RGB, Pixelbereich, Bildauflösung usw.) Aufgrund der Eigenschaften verschiedener Teile der Daten (Rauschen, Objektform usw.) muss das klassische Netzwerk verbessert werden, damit sich verschiedene Daten an das Eingabedatenformat und die Eigenschaften anpassen können, damit dies möglich ist Schließen Sie die Segmentierungsaufgabe besser ab. Obwohl es sich bei Deep Learning um eine Blackbox handelt, müssen beim Gesamtdesign des Modells dennoch Regeln befolgt werden, welche Strategie welches Problem löst und welches Problem es verursacht, basierend auf dem spezifischen Segmentierungsproblem, um eine optimale Segmentierungsleistung zu erzielen.

Einige Referenzen:

1.Deep Semantic Segmentation of Natural and Medical Images: A Review

2.NAS-Unet: Neural Architecture Search for Medical Image Segmentation. IEEE Access, 7:44247–44257, 2019 .

3.Steigerung der Segmentierung durch schwache Überwachung von Bild-zu-Bild-Übersetzung arXiv:1904.01636, 2019

4. .

5.SegAN: Gegnerisches Netzwerk mit mehrskaligem L1-Verlust Medizinische Bildsegmentierung.

6.Vollständig faltungsstrukturierte LSTM-Netzwerke für die gemeinsame 4D-Bildsegmentierung. Im Jahr 2018 IEEE7 https://www.cnblogs.com/walter-xh/p/10051634.html

Das obige ist der detaillierte Inhalt vonDeep-Learning-Bildsegmentierung: Ein Überblick über das Netzwerkstrukturdesign. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Dieser Artikel ist reproduziert unter:51CTO.COM. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Verwandter Artikel

So erstellen Sie Ihren persönlichen KI -Assistenten mit Smollm mit Umarmung. SmollmApr 18, 2025 am 11:52 AM

Nutzen Sie die Kraft von AI On-Device: Bauen eines persönlichen Chatbot-Cli In der jüngeren Vergangenheit schien das Konzept eines persönlichen KI -Assistenten wie Science -Fiction zu sein. Stellen Sie sich Alex vor, ein Technik -Enthusiast, der von einem klugen, lokalen KI -Begleiter träumt - einer, der nicht angewiesen ist

KI für psychische Gesundheit wird aufmerksam durch aufregende neue Initiative an der Stanford University analysiertApr 18, 2025 am 11:49 AM

Ihre Eröffnungseinführung von AI4MH fand am 15. April 2025 statt, und Luminary Dr. Tom Insel, M. D., berühmter Psychiater und Neurowissenschaftler, diente als Kick-off-Sprecher. Dr. Insel ist bekannt für seine herausragende Arbeit in der psychischen Gesundheitsforschung und für Techno

Die 2025 WNBA -Entwurfsklasse tritt in eine Liga ein, die wächst und gegen Online -Belästigung kämpftApr 18, 2025 am 11:44 AM

"Wir möchten sicherstellen, dass die WNBA ein Raum bleibt, in dem sich alle, Spieler, Fans und Unternehmenspartner sicher fühlen, geschätzt und gestärkt sind", erklärte Engelbert und befasste sich mit dem, was zu einer der schädlichsten Herausforderungen des Frauensports geworden ist. Die Anno

Umfassende Anleitung zu Python -integrierten Datenstrukturen - Analytics VidhyaApr 18, 2025 am 11:43 AM

Einführung Python zeichnet sich als Programmiersprache aus, insbesondere in der Datenwissenschaft und der generativen KI. Eine effiziente Datenmanipulation (Speicherung, Verwaltung und Zugriff) ist bei der Behandlung großer Datensätze von entscheidender Bedeutung. Wir haben zuvor Zahlen und ST abgedeckt

Erste Eindrücke von OpenAIs neuen Modellen im Vergleich zu AlternativenApr 18, 2025 am 11:41 AM

Vor dem Eintauchen ist eine wichtige Einschränkung: KI-Leistung ist nicht deterministisch und sehr nutzungsgewohnt. In einfacherer Weise kann Ihre Kilometerleistung variieren. Nehmen Sie diesen (oder einen anderen) Artikel nicht als endgültiges Wort - testen Sie diese Modelle in Ihrem eigenen Szenario

AI -Portfolio | Wie baue ich ein Portfolio für eine KI -Karriere?Apr 18, 2025 am 11:40 AM

Erstellen eines herausragenden KI/ML -Portfolios: Ein Leitfaden für Anfänger und Profis Das Erstellen eines überzeugenden Portfolios ist entscheidend für die Sicherung von Rollen in der künstlichen Intelligenz (KI) und des maschinellen Lernens (ML). Dieser Leitfaden bietet Rat zum Erstellen eines Portfolios

Welche Agenten KI könnte für Sicherheitsvorgänge bedeutenApr 18, 2025 am 11:36 AM

Das Ergebnis? Burnout, Ineffizienz und eine Erweiterung zwischen Erkennung und Wirkung. Nichts davon sollte für jeden, der in Cybersicherheit arbeitet, einen Schock erfolgen. Das Versprechen der Agenten -KI hat sich jedoch als potenzieller Wendepunkt herausgestellt. Diese neue Klasse

Google versus openai: Der KI -Kampf für SchülerApr 18, 2025 am 11:31 AM

Sofortige Auswirkungen gegen langfristige Partnerschaft? Vor zwei Wochen hat Openai ein leistungsstarkes kurzfristiges Angebot vorangetrieben und bis Ende Mai 2025 den kostenlosen Zugang zu Chatgpt und Ende Mai 2025 gewährt. Dieses Tool enthält GPT-4O, A A A.

See all articles