Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Eine 10.000-Wörter-Rezension zum Thema Deep Learning, die für Anfänger geeignet ist

Eine 10.000-Wörter-Rezension zum Thema Deep Learning, die für Anfänger geeignet ist

WBOY
WBOYnach vorne
2023-04-14 12:37:03977Durchsuche

​Papier: Aktuelle Fortschritte im Deep Learning: Ein Überblick

Eine 10.000-Wörter-Rezension zum Thema Deep Learning, die für Anfänger geeignet ist

Papieradresse: https://arxiv.org/pdf/1807.08169v1.pdf

Zusammenfassung: Deep Learning ist maschinelles Lernen und Einer der neuesten Trends in der Forschung zur künstlichen Intelligenz. Es ist heute auch einer der beliebtesten wissenschaftlichen Forschungstrends. Deep-Learning-Methoden haben revolutionäre Fortschritte im Bereich Computer Vision und maschinelles Lernen gebracht. Es werden ständig neue Deep-Learning-Techniken entwickelt, die modernstes maschinelles Lernen und sogar bestehende Deep-Learning-Techniken übertreffen. In den letzten Jahren wurden auf diesem Gebiet weltweit viele große Durchbrüche erzielt. Aufgrund der rasanten Entwicklung des Deep Learning ist der Fortschritt insbesondere für neue Forscher schwer zu verfolgen. In diesem Artikel werden wir kurz auf die jüngsten Fortschritte beim Deep Learning in den letzten Jahren eingehen.

1. Einführung

Der Begriff „Deep Learning“ (DL) wurde erstmals 1986 in das maschinelle Lernen (ML) eingeführt und später im Jahr 2000 in künstlichen neuronalen Netzen (ANN) verwendet. Deep-Learning-Methoden bestehen aus mehreren Schichten zum Erlernen von Datenmerkmalen mit mehreren Abstraktionsebenen. DL-Methoden ermöglichen es Computern, komplexe Konzepte durch relativ einfache Konzepte zu lernen. Bei künstlichen neuronalen Netzen (KNN) bezieht sich Deep Learning (DL) (auch als hierarchisches Lernen bekannt) auf die präzise Zuweisung von Guthaben über mehrere Rechenstufen hinweg, um aggregierte Aktivierungen im Netzwerk umzuwandeln. Um komplexe Funktionen zu erlernen, werden tiefe Architekturen auf mehreren Abstraktionsebenen verwendet, d. h. nichtlineare Operationen wie ANNs, mit vielen verborgenen Schichten; Um es treffend zusammenzufassen: Deep Learning ist ein Teilgebiet des maschinellen Lernens, das mehrere Ebenen der nichtlinearen Informationsverarbeitung und -abstraktion für überwachtes oder unüberwachtes Lernen, Darstellung, Klassifizierung und Mustererkennung von Merkmalen verwendet.

Deep Learning oder Repräsentationslernen ist ein Zweig oder Teilgebiet des maschinellen Lernens. Die meisten Menschen glauben, dass moderne Deep-Learning-Methoden ab 2006 entwickelt wurden. Dieser Artikel ist ein Überblick über die neueste Deep-Learning-Technologie und wird hauptsächlich Forschern empfohlen, die sich in diesem Bereich engagieren möchten. Dieser Artikel enthält die Grundideen, Hauptmethoden, neuesten Entwicklungen und Anwendungen von DL.

Rezensionsarbeiten sind sehr nützlich, insbesondere für neue Forscher auf einem bestimmten Gebiet. Wenn ein Forschungsgebiet in naher Zukunft und damit verbundene Anwendungsfelder von großem Wert ist, ist es meist schwierig, die neuesten Fortschritte in Echtzeit zu verfolgen. Heutzutage ist wissenschaftliche Forschung ein attraktiver Beruf, da Wissen und Bildung leichter zu teilen und zu erlangen sind als je zuvor. Die einzig normale Annahme für einen technologischen Forschungstrend ist, dass es in allen Aspekten viele Verbesserungen geben wird. Eine Übersicht über ein Fachgebiet von vor einigen Jahren ist möglicherweise nicht mehr aktuell.

Angesichts der Popularität und Förderung von Deep Learning in den letzten Jahren geben wir einen kurzen Überblick über Deep Learning und neuronale Netze (NN) sowie deren wichtigste Fortschritte und große Durchbrüche in den letzten Jahren. Wir hoffen, dass dieser Artikel vielen unerfahrenen Forschern auf diesem Gebiet dabei helfen wird, ein umfassendes Verständnis der aktuellen Deep-Learning-Forschung und -Techniken zu erlangen und ihnen den richtigen Einstieg zu ermöglichen. Gleichzeitig hoffen wir, mit dieser Arbeit den besten DL- und ANN-Forschern dieser Ära Tribut zu zollen: Geoffrey Hinton (Hinton), Jürgen Schmidhuber (Schmidhuber), Yann LeCun (LeCun), Yoshua Bengio (Bengio) und viele andere Forschungswissenschaftler, deren Forschung die moderne künstliche Intelligenz (KI) aufgebaut hat. Für uns ist es außerdem von entscheidender Bedeutung, ihre Arbeit weiterzuverfolgen, um die besten aktuellen Fortschritte in der DL- und ML-Forschung zu verfolgen.

In diesem Artikel beschreiben wir zunächst kurz frühere Forschungsarbeiten und untersuchen Deep-Learning-Modelle und -Methoden. Anschließend beginnen wir mit der Beschreibung der jüngsten Fortschritte in diesem Bereich. Wir werden Deep-Learning-Methoden (DL), Deep-Architekturen (d. h. Deep Neural Networks (DNN)) und Deep Generative Models (DGM) diskutieren, gefolgt von wichtigen Regularisierungs- und Optimierungsmethoden. Darüber hinaus werden in zwei kurzen Abschnitten Open-Source-DL-Frameworks und wichtige DL-Anwendungen zusammengefasst. In den letzten beiden Kapiteln „Diskussion“ und „Schlussfolgerung“ diskutieren wir den aktuellen Stand und die Zukunft des Deep Learning.

2. Verwandte Forschung

In den letzten Jahren gab es viele Übersichtsartikel zum Thema Deep Learning. Sie beschreiben auf gute Weise DL-Methoden, -Methoden sowie deren Anwendungen und zukünftige Forschungsrichtungen. Hier stellen wir kurz einige hervorragende Übersichtsartikel zum Thema Deep Learning vor.

Young et al. (2017) diskutieren DL-Modelle und -Architekturen, hauptsächlich für die Verarbeitung natürlicher Sprache (NLP). Sie stellen DL-Anwendungen in verschiedenen NLP-Domänen vor, vergleichen DL-Modelle und diskutieren mögliche zukünftige Trends.

Zhang et al. (2017) diskutieren die derzeit besten Deep-Learning-Techniken für Front-End- und Back-End-Spracherkennungssysteme.

Zhu et al. (2017) untersuchten die jüngsten Fortschritte in der DL-Fernerkundungstechnologie. Sie diskutieren auch Open-Source-DL-Frameworks und andere technische Details des Deep Learning.

Wang et al. (2017) beschreiben die Entwicklung von Deep-Learning-Modellen chronologisch. In diesem kurzen Artikel werden das Modell und seine Durchbrüche in der DL-Forschung kurz vorgestellt. Dieser Artikel verwendet einen evolutionären Ansatz, um die Ursprünge des Deep Learning zu verstehen, und erläutert die Optimierung und zukünftige Forschung neuronaler Netze.

Goodfellow et al. (2016) diskutierten ausführlich tiefe Netzwerke und generative Modelle und fassten die DL-Forschung und -Anwendungen der letzten Jahre ausgehend von den Grundkenntnissen des maschinellen Lernens (ML) und den Vor- und Nachteilen tiefer Architekturen zusammen.

LeCun et al. (2015) gaben einen Überblick über Deep-Learning-Modelle (DL) aus Convolutional Neural Networks (CNN) und Recurrent Neural Networks (RNN). Sie beschreiben DL aus der Perspektive des Repräsentationslernens und zeigen, wie DL-Techniken funktionieren, wie sie in verschiedenen Anwendungen erfolgreich eingesetzt werden können und wie sie lernen können, die Zukunft auf der Grundlage von unüberwachtem Lernen (Unsupervised Learning, UL) vorherzusagen. Sie weisen auch in der Bibliographie auf die großen Fortschritte im DL hin.

Schmidhuber (2015) gab einen Überblick über Deep Learning von CNN, RNN und Deep Reinforcement Learning (RL). Er betont RNNs für die Sequenzverarbeitung und weist gleichzeitig auf die Einschränkungen grundlegender DL und NN sowie Tipps zu deren Verbesserung hin.

Nielsen (2015) beschreibt die Details neuronaler Netze mit Code und Beispielen. In gewissem Umfang diskutiert er auch tiefe neuronale Netze und tiefes Lernen.

Schmidhuber (2014) diskutiert die Geschichte und den Fortschritt zeitreihenbasierter neuronaler Netze, die Klassifizierung mithilfe von Methoden des maschinellen Lernens und den Einsatz von Deep Learning in neuronalen Netzen.

Deng und Yu (2014) beschreiben Deep-Learning-Kategorien und -Techniken sowie Anwendungen von DL in mehreren Bereichen.

Bengio (2013) bietet einen kurzen Überblick über DL-Algorithmen aus der Perspektive des Repräsentationslernens, d. h. überwachte und unüberwachte Netzwerke, Optimierungs- und Trainingsmodelle. Er konzentriert sich auf viele Herausforderungen des Deep Learning, wie zum Beispiel: Skalierungsalgorithmen für größere Modelle und Daten, Reduzierung von Optimierungsschwierigkeiten, Entwurf effizienter Skalierungsmethoden usw.

Bengio et al. (2013) diskutierten Repräsentation und Feature-Learning, also Deep Learning. Sie erforschen verschiedene Ansätze und Modelle aus der Perspektive von Anwendungen, Technologien und Herausforderungen.

Deng (2011) bietet einen Überblick über tief strukturiertes Lernen und seine Architektur aus der Perspektive der Informationsverarbeitung und verwandter Bereiche.

Arel et al (2010) geben einen kurzen Überblick über die DL-Technologie in den letzten Jahren.

Bengio (2009) diskutiert tiefe Architekturen, nämlich neuronale Netze und generative Modelle für künstliche Intelligenz.

Alle aktuellen Arbeiten zum Thema Deep Learning (DL) diskutieren den Fokus des Deep Learning aus mehreren Perspektiven. Dies ist für DL-Forscher sehr wichtig. Allerdings ist DL derzeit ein boomendes Feld. Nach dem jüngsten DL-Übersichtspapier wurden viele neue Techniken und Architekturen vorgeschlagen. Darüber hinaus wurde es in früheren Arbeiten aus unterschiedlichen Perspektiven untersucht. Unsere Arbeit richtet sich in erster Linie an Lernende und Einsteiger, die neu auf dem Gebiet sind. Zu diesem Zweck werden wir uns bemühen, neuen Forschern und allen, die sich für dieses Gebiet interessieren, eine Grundlage und ein klares Konzept des Deep Learning zu bieten.

3. Neueste Fortschritte

In diesem Abschnitt werden wir die wichtigsten Deep-Learning-Methoden (DL) diskutieren, die kürzlich aus maschinellem Lernen und künstlichen neuronalen Netzen (ANN) abgeleitet wurden und die am häufigsten verwendete Form des Deep Learning sind.

3.1 Entwicklung tiefer Architekturen

Künstliche neuronale Netze (ANN) haben große Fortschritte gemacht und andere tiefe Modelle mit sich gebracht. Die erste Generation künstlicher neuronaler Netze bestand aus einfachen Perzeptron-Neuronalschichten, die nur begrenzte einfache Berechnungen durchführen konnten. Die zweite Generation verwendet Backpropagation, um die Gewichte von Neuronen basierend auf der Fehlerrate zu aktualisieren. Dann traten Support Vector Machines (SVM) in den Vordergrund und überholten ANN für eine Weile. Um die Einschränkungen der Backpropagation zu überwinden, wurden eingeschränkte Boltzmann-Maschinen (RBMs) vorgeschlagen, um das Lernen zu erleichtern. Zu dieser Zeit entstanden auch andere Technologien und neuronale Netze, wie Feedforward Neural Networks (FNN), Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN) usw. sowie Deep-Believe-Netzwerke, Autoencoder usw. Seitdem wurden ANNs in verschiedenen Aspekten für verschiedene Zwecke verbessert und entworfen.

Schmidhuber (2014), Bengio (2009), Deng und Yu (2014), Goodfellow et al (2016), Wang et al (2017) über die Entwicklung und Geschichte tiefer neuronaler Netze (DNN). Lernen (DL) ) bietet einen detaillierten Überblick. In den meisten Fällen handelt es sich bei tiefen Architekturen um mehrschichtige, nichtlineare Iterationen einfacher Architekturen, die es ermöglichen, hochkomplexe Funktionen aus der Eingabe zu erhalten.

4. Deep-Learning-Methoden

Deep Neural Networks haben beim überwachten Lernen große Erfolge erzielt. Darüber hinaus waren Deep-Learning-Modelle beim unbeaufsichtigten, hybriden und verstärkenden Lernen sehr erfolgreich.

4.1 Tief überwachtes Lernen

Überwachtes Lernen wird bei der Datenkennzeichnung, Klassifikatorklassifizierung oder numerischen Vorhersage angewendet. LeCun et al. (2015) bieten eine vereinfachte Erklärung überwachter Lernmethoden und der Bildung tiefer Strukturen. Deng und Yu (2014) erwähnten und erklärten viele tiefe Netzwerke für überwachtes und hybrides Lernen, wie zum Beispiel das Deep Stack Network (DSN) und seine Varianten. Die Forschung von Schmidthuber (2014) deckt alle neuronalen Netze ab, von frühen neuronalen Netzen bis hin zu den neueren Erfolgen von Convolutional Neural Networks (CNN), rekurrenten neuronalen Netzen (RNN), Long Short-Term Memory (LSTM) und deren Verbesserungen.

4.2 Deep Unsupervised Learning

Wenn die Eingabedaten unbeschriftet sind, können unbeaufsichtigte Lernmethoden angewendet werden, um Merkmale aus den Daten zu extrahieren und sie zu klassifizieren oder zu kennzeichnen. LeCun et al. (2015) prognostizieren die Zukunft des unbeaufsichtigten Lernens im Deep Learning. Schmidthuber (2014) beschreibt auch neuronale Netze für unüberwachtes Lernen. Deng und Yu (2014) stellten kurz tiefe Architekturen für unüberwachtes Lernen vor und erläuterten ausführlich tiefe Autoencoder.

4.3 Deep Reinforcement Learning

Reinforcement Learning verwendet ein Belohnungs- und Bestrafungssystem, um den nächsten Schritt eines Lernmodells vorherzusagen. Dies wird hauptsächlich in Spielen und Robotern verwendet, um häufige Entscheidungsprobleme zu lösen. Schmidthuber (2014) beschreibt Fortschritte beim Deep Learning beim Reinforcement Learning (RL) und die Anwendung von Deep Feedforward Neural Networks (FNN) und Recurrent Neural Networks (RNN) in RL. Li (2017) diskutiert Deep Reinforcement Learning (DRL), seine Architektur (wie Deep Q-Network, DQN) und seine Anwendungen in verschiedenen Bereichen.

Mnih et al. (2016) schlugen ein DRL-Framework für die DNN-Optimierung unter Verwendung des asynchronen Gradientenabstiegs vor.

van Hasselt et al. (2015) schlugen eine DRL-Architektur unter Verwendung eines tiefen neuronalen Netzwerks (DNN) vor.

5. Tiefe neuronale Netze

In diesem Abschnitt werden wir kurz auf tiefe neuronale Netze (DNN) sowie ihre jüngsten Verbesserungen und Durchbrüche eingehen. Neuronale Netze funktionieren ähnlich wie das menschliche Gehirn. Sie bestehen hauptsächlich aus Neuronen und Verbindungen. Wenn wir von tiefen neuronalen Netzen sprechen, können wir davon ausgehen, dass es eine ganze Reihe verborgener Schichten gibt, die zum Extrahieren von Merkmalen und Berechnen komplexer Funktionen aus der Eingabe verwendet werden können. Bengio (2009) erklärt tief strukturierte neuronale Netze wie Convolutional Neural Networks (CNN), Autoencoder (AE) usw. und ihre Varianten. Deng und Yu (2014) bieten eine detaillierte Einführung in einige neuronale Netzwerkarchitekturen wie AE und seine Varianten. Goodfellow et al. (2016) stellten tiefe Feedforward-Netzwerke, Faltungsnetzwerke und wiederkehrende Netzwerke sowie deren Verbesserungen vor und erklärten sie technisch. Schmidhuber (2014) erwähnt eine vollständige Geschichte neuronaler Netze von frühen neuronalen Netzen bis hin zu neueren erfolgreichen Technologien.

5.1 Deep Autoencoder

Ein Autoencoder (AE) ist ein neuronales Netzwerk (NN), bei dem der Ausgang der Eingang ist. AE nimmt Roheingaben, kodiert sie in eine komprimierte Darstellung und dekodiert sie dann, um die Eingabe zu rekonstruieren. Bei Deep AE werden niedrig verborgene Schichten zum Kodieren, hoch verborgene Schichten zum Dekodieren und Fehler-Backpropagation zum Training verwendet.

5.1.1 Variational Autoencoder

Variational Autoencoder (VAEs) können zu den Decodern gezählt werden. VAEs basieren auf standardmäßigen neuronalen Netzen und können über stochastischen Gradientenabstieg trainiert werden (Doersch, 2016).

5.1.2 Mehrschichtiger Autoencoder mit Rauschunterdrückung

Bei frühen Autoencodern (AE) ist die Dimensionalität der Codierungsschicht kleiner (schmaler) als die der Eingabeschicht. Bei mehrschichtigen Denoising-Autoencodern (SDAE) ist die Codierungsschicht breiter als die Eingabeschicht (Deng und Yu, 2014).

5.1.3 Transformations-Autoencoder

Deep Autoencoder (DAE) kann transformativ sein, das heißt, die aus der mehrschichtigen nichtlinearen Verarbeitung extrahierten Funktionen können entsprechend den Bedürfnissen des Lernenden transformiert werden. Transformierende Autoencoder (TAEs) können sowohl Eingabevektoren als auch Zielausgabevektoren verwenden, um Transformationsinvarianzeigenschaften anzuwenden, um den Code in die gewünschte Richtung zu lenken (Deng und Yu, 2014).

5.2 Deep Convolutional Neural Network

Vier Grundideen bilden ein Convolutional Neural Network (CNN), nämlich: lokale Verbindungen, gemeinsame Gewichte, Pooling und die Verwendung mehrerer Schichten. Der erste Teil von CNN besteht aus Faltungsschichten und Pooling-Schichten, und der zweite Teil ist hauptsächlich eine vollständig verbundene Schicht. Faltungsschichten erkennen lokale Verbindungen von Merkmalen, und Pooling-Schichten führen ähnliche Merkmale zu einem zusammen. CNN verwendet in der Faltungsschicht Faltung anstelle von Matrixmultiplikation.

Krizhevsky et al. (2012) schlugen eine Deep Convolutional Neural Network (CNN)-Architektur vor, auch bekannt als AlexNet, die einen großen Durchbruch im Deep Learning (DL) darstellte. Das Netzwerk besteht aus 5 Faltungsschichten und 3 vollständig verbundenen Schichten. Die Architektur verwendet eine Grafikverarbeitungseinheit (GPU) für Faltungsoperationen, eine gleichgerichtete lineare Funktion (ReLU) als Aktivierungsfunktion und Dropout, um Überanpassung zu reduzieren.

Iandola et al. (2016) schlugen eine kleine CNN-Architektur namens „SqueezeNet“ vor.

Szegedy et al. (2014) schlugen eine tiefe CNN-Architektur namens Inception vor. Dai et al. (2017) schlugen Verbesserungen für Inception-ResNet vor.

Redmon et al. (2015) schlugen eine CNN-Architektur namens YOLO (You Only Look Once) für eine einheitliche Objekterkennung in Echtzeit vor.

Zeiler und Fergus (2013) schlugen eine Methode zur Visualisierung von Aktivierungen innerhalb von CNNs vor.

Gehring et al. (2017) schlugen eine CNN-Architektur für das Lernen von Sequenz zu Sequenz vor.

Bansal et al. (2017) schlugen PixelNet vor, das Pixel zur Darstellung verwendet.

Goodfellow et al. (2016) erläutern die grundlegende Architektur und Ideen von CNN. Gu et al. (2015) bieten einen guten Überblick über die jüngsten Fortschritte bei CNNs, mehrere Varianten von CNNs, Architekturen von CNNs, Regularisierungsmethoden und -fähigkeiten sowie Anwendungen in verschiedenen Bereichen.

5.2.1 Deep Max Pooling Convolutional Neural Network

Max Pooling Convolutional Neural Network (MPCNN) arbeitet hauptsächlich mit Faltung und Max Pooling, insbesondere in der digitalen Bildverarbeitung. MPCNN besteht neben der Eingabeschicht normalerweise aus drei Schichten. Die Faltungsschicht nimmt das Eingabebild, generiert Feature-Maps und wendet dann eine nichtlineare Aktivierungsfunktion an. Die Max-Pooling-Ebene führt ein Downsampling des Bildes durch und behält den Maximalwert der Unterregion bei. Vollständig verbundene Schichten führen eine lineare Multiplikation durch. In Deep MPCNN werden Faltung und Hybrid-Pooling regelmäßig nach der Eingabeschicht verwendet, gefolgt von einer vollständig verbundenen Schicht.

5.2.2 Sehr tiefe Faltungs-Neuronale Netze

Simonyan und Zisserman (2014) schlugen eine Architektur für sehr tiefe Faltungs-Neuronale Netze (VDCNN) vor, auch bekannt als VGG Net. VGG Net verwendet sehr kleine Faltungsfilter mit einer Tiefe von 16–19 Schichten. Conneau et al. (2016) schlugen eine andere VDCNN-Architektur für die Textklassifizierung unter Verwendung kleiner Faltungen und Pooling vor. Sie behaupten, dass diese VDCNN-Architektur die erste ist, die in der Textverarbeitung verwendet wird und auf Zeichenebene funktioniert. Die Architektur besteht aus 29 Faltungsschichten.

5.3 Netzwerk im Netzwerk

Lin et al (2013) schlugen Network In Network (NIN) vor. NIN ersetzt die Faltungsschichten traditioneller Faltungs-Neuronaler Netze (CNN) durch mikroneuronale Netze mit komplexen Strukturen. Es verwendet mehrschichtige Perzeptron-Verarbeitung (MLPConv), die mikroneuronale Netzwerke und globale Durchschnittspooling-Schichten anstelle vollständig verbundener Schichten verarbeitet. Tiefe NIN-Architekturen können aus mehreren Überlagerungen von NIN-Strukturen bestehen.

5.4 Regionsbasiertes Faltungs-Neuronales Netzwerk

Girshick et al. (2014) schlugen ein regionalbasiertes Faltungs-Neuronales Netzwerk (R-CNN) vor, das Regionen zur Erkennung verwendet. R-CNN verwendet Regionen, um Objekte zu lokalisieren und zu segmentieren. Die Architektur besteht aus drei Modulen: klassenunabhängigen Regionsvorschlägen, die eine Sammlung von Kandidatenregionen definieren, einem großen Faltungs-Neuronalen Netzwerk (CNN), das Merkmale aus den Regionen extrahiert, und einer Reihe klassenspezifischer linearer Support-Vektor-Maschinen (SVMs).

5.4.1 Schnelles R-CNN

Girshick (2015) schlug ein schnelles regionalbasiertes Faltungsnetzwerk (Fast R-CNN) vor. Diese Methode nutzt die R-CNN-Architektur, um schnell Ergebnisse zu liefern. Fast R-CNN besteht aus Faltungs- und Pooling-Schichten, Regionsvorschlagsschichten und einer Reihe vollständig verbundener Schichten. 5.4.2 Schnelleres R-CNN RPN) zur Objekterkennung in Echtzeit. RPN ist ein vollständig Faltungsnetzwerk, das Regionsvorschläge genau und effizient generieren kann (Ren et al., 2015).

5.4.3 Mask R-CNN

He Kaiming et al. (2017) schlugen eine regionalbasierte Mask-Faltungsnetzwerk-Instanzsegmentierung (Mask R-CNN) vor. Mask R-CNN erweitert die Architektur von R-CNN und verwendet einen zusätzlichen Zweig zur Vorhersage von Zielmasken. 5.4.4 Multi-Expert R-CNN . ME R-CNN generiert Regionen von Interesse (RoI) aus selektiven und umfassenden Suchen. Außerdem wird ein Multi-Experten-Netzwerk pro RoI anstelle eines einzelnen RoI-Netzwerks verwendet. Jeder Experte verfügt über die gleiche Architektur mit vollständig verbundenen Schichten von Fast R-CNN.

5.5 Deep Residual Network

Das von He et al. vorgeschlagene Residualnetzwerk (ResNet) besteht aus 152 Schichten. ResNet weist geringe Fehler auf und ist durch Restlernen leicht zu trainieren. Deeper ResNet kann eine bessere Leistung erzielen. Im Bereich Deep Learning gilt ResNet als wichtiger Fortschritt.

5.5.1 Resnet in Resnet

Targ et al. (2016) schlugen in Resnet in Resnet (RiR) eine Kombination von ResNets und Standard-Convolutional Neural Networks (CNN) zu einer tiefen Zwei-Stream-Architektur vor .

5.5.2 ResNeXt

Xie et al. haben die ResNeXt-Architektur vorgeschlagen. ResNext nutzt ResNets, um die Split-Transform-Merge-Strategie wiederzuverwenden.

5.6 Capsule Network

Sabour et al. (2017) schlugen Capsule Network (CapsNet) vor, eine Architektur, die zwei Faltungsschichten und eine vollständig verbundene Schicht enthält. CapsNet enthält normalerweise mehrere Faltungsschichten mit Kapselschichten am Ende. CapsNet gilt als einer der neuesten Durchbrüche im Deep Learning, da es angeblich auf den Einschränkungen von Faltungs-Neuronalen Netzen basiert. Es verwendet Kapselschichten anstelle von Neuronen. Aktivierte Kapseln auf niedrigerer Ebene treffen Vorhersagen, und nachdem man sich auf mehrere Vorhersagen geeinigt hat, werden Kapseln auf höherer Ebene aktiv. Innerhalb dieser Kapselschichten wird ein Protokoll-Routing-Mechanismus verwendet. Hinton schlug später EM-Routing vor, das CapsNet mithilfe des Erwartungsmaximierungsalgorithmus (EM) verbesserte.

5.7 Recurrent Neural Network

Recurrent Neural Network (RNN) eignet sich besser für Sequenzeingaben wie Sprache, Text und generierte Sequenzen. Eine wiederholte versteckte Einheit kann, wenn sie rechtzeitig entfaltet wird, als ein sehr tiefes Feed-Forward-Netzwerk mit den gleichen Gewichten betrachtet werden. Früher waren RNNs aufgrund von verschwindenden Gradienten und Dimensionsexplosionsproblemen schwierig zu trainieren. Um dieses Problem zu lösen, schlugen viele Leute später Verbesserungen vor.

Goodfellow et al. (2016) bieten eine detaillierte Analyse der Details wiederkehrender und wiederkehrender neuronaler Netze und Architekturen sowie verwandter Gating- und Speichernetze.

Karpathy et al. (2015) verwenden Sprachmodelle auf Zeichenebene, um Vorhersagen zu analysieren und zu visualisieren, Trainingsdynamiken, Fehlertypen von RNNs und deren Varianten (wie LSTM) usw. zu charakterisieren.

J´ozefowicz et al. (2016) untersuchen die Grenzen von RNN-Modellen und Sprachmodellen. 5.7.1 RNN-EM Sie behaupten, beim Sprachverständnis Spitzenleistungen zu erbringen, die besser sind als andere RNNs. 5.7.2 GF-RNN RNN. 5.7.3 CRF-RNN CRF) werden zur probabilistischen grafischen Modellierung kombiniert. 5.7.4 Quasi-RNN

5.8 Gedächtnisnetzwerk

Weston et al. (2014) schlugen ein Frage-Antwort-Speichernetzwerk (QA) vor. Das Speichernetzwerk besteht aus Speicher, Eingabemerkmalszuordnung, Generalisierung, Ausgabemerkmalszuordnung und Antwort.

5.8.1 Dynamisches Speichernetzwerk

Kumar et al. (2015) schlugen ein dynamisches Speichernetzwerk (DMN) für Qualitätssicherungsaufgaben vor. DMN besteht aus vier Modulen: Eingabe, Frage, episodisches Gedächtnis und Ausgabe.

5.9 Erweiterte neuronale Netze

Olah und Carter (2016) liefern eine gute Demonstration von Aufmerksamkeit und erweiterten wiederkehrenden neuronalen Netzen, nämlich Neural Turing Machines (NTM), Aufmerksamkeitsschnittstellen, neuronale Encoder und adaptive Rechenzeit. Neuronale Netze werden häufig durch zusätzliche Eigenschaften wie Logistikfunktionen sowie standardmäßige neuronale Netzarchitekturen erweitert.

5.9.1 Neural Turing Machine

Graves et al. (2014) schlugen die Architektur der Neural Turing Machine (NTM) vor, die aus einem neuronalen Netzwerkcontroller und einer Speicherbank besteht. NTM kombiniert typischerweise ein RNN mit einer externen Speicherbank.

5.9.2 Neural GPU

Kaiser und Sutskever (2015) schlugen eine neuronale GPU vor, um das Parallelproblem von NTM zu lösen.

5.9.3 Neuronale Direktzugriffsmaschine

Kurach et al. (2015) schlugen eine neuronale Direktzugriffsmaschine vor, die einen externen Direktzugriffsspeicher variabler Größe verwendet.

5.9.4 Neural Programmer

Neelakantan et al. (2015) schlugen den Neural Programmer vor, ein erweitertes neuronales Netzwerk mit arithmetischen und logischen Funktionen.

5.9.5 Neural Programmer-Interpreter

Reed und de Freitas (2015) schlugen einen erlernbaren Neural Programmer-Interpreter (NPI) vor. NPI umfasst periodische Kernel, Programmspeicher und domänenspezifische Encoder.

5.10 Langes Kurzzeitgedächtnisnetzwerk

Hochreiter und Schmidhuber (1997) schlugen ein langes Kurzzeitgedächtnis (LSTM) vor, um das Fehlerrückflussproblem wiederkehrender neuronaler Netze (RNN) zu überwinden. LSTM ist ein Lernalgorithmus, der auf wiederkehrenden Netzwerken basiert und LSTM Pfade zur Selbstschleifenerzeugung einführt, um den Fluss von Gradienten zu ermöglichen.

Greff et al. (2017) führten eine groß angelegte Analyse von Standard-LSTM- und 8-LSTM-Varianten zur Spracherkennung, Handschrifterkennung bzw. polyphonen Musikmodellierung durch. Sie behaupteten, dass die 8 Varianten von LSTM keine signifikante Verbesserung zeigten, während nur das Standard-LSTM eine gute Leistung erbrachte.

Shi et al. (2016b) schlugen ein Deep Long Short-Term Memory Network (DLSTM) vor, bei dem es sich um einen Stapel von LSTM-Einheiten für die Darstellung von Feature-Map-Lernen handelt.

5.10.1 Batch-normalisiertes LSTM

Cooijmans et al. (2016) schlugen Batch-normalisiertes LSTM (BN-LSTM) vor, das Batch-normalisiertes LSTM für die verborgenen Zustände wiederkehrender neuronaler Netze verwendet. Normalisieren.

5.10.2 Pixel RNN

van den Oord et al. (2016b) schlugen ein Pixel Recurrent Neural Network (Pixel-RNN) vor, das aus 12 2D-LSTM-Schichten besteht. 5.10.3 Bidirektionales LSTM 5.10.4 Variational Bi-LSTM Variational Bi-LSTM verwendet Variational Autoencoder (VAEs), um einen Informationsaustauschkanal zwischen LSTMs zu erstellen und bessere Darstellungen zu lernen.

5.11 Google Neural Machine Translation

Wu et al. (2016) schlugen ein automatisches Übersetzungssystem namens Google Neural Machine Translation (GNMT) vor, das ein Encoder-Netzwerk, ein Decoder-Netzwerk und ein Aufmerksamkeitsnetzwerk kombiniert ein gemeinsames Sequenz-zu-Sequenz-Lernrahmen. 5.12 Fader Network

5.13 Hypernetzwerke

Die von Ha et al. (2016) vorgeschlagenen Hypernetzwerke generieren Gewichte für andere neuronale Netzwerke, wie z. B. statische Hypernetzwerk-Faltungsnetzwerke und dynamische Hypernetzwerke für wiederkehrende Netzwerke.

Deutsch(2018) Generierung neuronaler Netze mithilfe von Hypernetzen. 5.14 Autobahnnetze Der Informationsfluss über mehrere Ebenen hinweg wird als Informationsautobahn bezeichnet. 5.14.1 Recurrent Highway Networks RHN verwendet die Highway-Ebene in periodischen Übergängen. 5.15 Highway LSTM RNN (d. h. Autobahn). 5.16 Long-Term Recurrent CNN von Vorhersagen.

5.17 Deep Neural SVM

Zhang et al. (2015) haben Deep Neural SVM (DNSVM) vorgeschlagen, das Support Vector Machine (SVM) als Deep Neural Network (DNN) verwendet.

5.18 Faltungs-Restspeichernetzwerk

Moniz und Pal (2016) schlugen ein Faltungs-Restspeichernetzwerk vor, um den Speichermechanismus in ein Faltungs-Neuronales Netzwerk (CNN) zu integrieren. Es nutzt einen langen Kurzzeitgedächtnismechanismus, um das Faltungsrestnetzwerk zu verbessern.

5.19 Fraktales Netzwerk

Larsson et al. (2016) schlugen ein fraktales Netzwerk, FractalNet, als Alternative zu Restnetzwerken vor. Sie behaupten, in der Lage zu sein, ultratiefe neuronale Netze ohne Restlernen zu trainieren. Fraktale sind sich wiederholende Architekturen, die durch einfache Erweiterungsregeln erzeugt werden.

5.20 WaveNet

van den Oord et al. (2016) schlugen WaveNet vor, ein tiefes neuronales Netzwerk zur Erzeugung von Rohaudio. WaveNet besteht aus einer Reihe von Faltungsschichten und Softmax-Verteilungsschichten für die Ausgabe.

Rethage et al. (2017) schlugen ein WaveNet-Modell zur Sprachunterdrückung vor.

5.21 Zeigernetzwerke

Vinyals et al. (2017) schlugen Zeigernetzwerke (Ptr-Netze) vor, um das Problem der Darstellung eines Variablenwörterbuchs mithilfe einer Softmax-Wahrscheinlichkeitsverteilung namens „Zeiger“ zu lösen.

6. Tiefe generative Modelle

In diesem Abschnitt werden wir kurz andere tiefe Architekturen besprechen, die mehrere Abstraktions- und Darstellungsschichten ähnlich tiefen neuronalen Netzen verwenden, auch bekannt als tiefe generative Modelle (Deep Generate Models, DGM). . Bengio (2009) erklärt tiefe Architekturen wie Boltzmann-Maschine (BM) und Restricted Boltzmann-Maschinen (RBM) und ihre Varianten.

Goodfellow et al. (2016) erläutern im Detail tiefe generative Modelle, wie eingeschränkte und uneingeschränkte Boltzmann-Maschinen und ihre Varianten, tiefe Boltzmann-Maschinen, tiefe Glaubensnetzwerke (DBN), gerichtete Generationsnetzwerke und generierende Zufallsnetzwerke usw.

Maaløe et al. (2016) schlugen Auxiliary Deep Generative Models vor, in denen sie tiefe generative Modelle um Hilfsvariablen erweiterten. Hilfsvariablen erzeugen Variationsverteilungen mithilfe zufälliger Schichten und überspringen Verbindungen.

Rezende et al. (2016) haben eine Single-Shot-Verallgemeinerung tiefer generativer Modelle entwickelt.

6.1 Boltzmann-Maschine

Die Boltzmann-Maschine ist eine konnektionistische Methode zum Lernen beliebiger Wahrscheinlichkeitsverteilungen, wobei zum Lernen das Maximum-Likelihood-Prinzip verwendet wird.

6.2 Eingeschränkte Boltzmann-Maschinen

Eingeschränkte Boltzmann-Maschinen (RBM) sind eine spezielle Art von Markov-Zufallsfeldern, die eine Schicht zufälliger versteckter Einheiten, nämlich latente Variablen, und eine Schicht beobachtbarer Variablen enthalten.

Hinton und Salakhutdinov (2011) schlugen ein tiefes generatives Modell für die Dokumentenverarbeitung unter Verwendung eingeschränkter Boltzmann-Maschinen (RBM) vor.

6.3 Deep Belief Networks

Deep Belief Networks (DBN) sind generative Modelle mit mehreren Schichten latenter binärer oder realer Variablen.

Ranzato et al. (2011) verwendeten Deep Belief Network (DBN), um ein tiefes generatives Modell für die Bilderkennung zu erstellen.

6.4 Deep Lambertian Network

Tang et al. (2012) schlugen Deep Lambertian Networks (DLN) vor, ein mehrstufiges generatives Modell, in dem die potenziellen Variablen Albedo, Oberflächennormalen und Lichter sind. DLNis ist eine Kombination aus Lambertscher Reflexion mit Gaußschen eingeschränkten Boltzmann-Maschinen und Deep-Glaubens-Netzwerken.

6.5 Generative Adversarial Networks

Goodfellow et al. (2014) schlugen vor, Adversarial Nets (GAN) zu generieren, um generative Modelle durch einen kontradiktorischen Prozess zu bewerten. Die GAN-Architektur besteht aus einem generativen Modell gegen einen Gegner (d. h. einem Lernmodell oder einem diskriminierenden Modell der Datenverteilung). Mao et al. (2016), Kim et al. (2017) schlugen weitere Verbesserungen für GAN vor.

Salimans et al. (2016) schlugen mehrere Methoden zum Training von GANs vor. 6.5.1 Laplace-Generative-Adversarial-Netzwerk Das Modell verwendet auch Faltungsnetzwerke in einem Laplace-Pyramiden-Framework.

6.6 Recurrent Support Vector Machine

Shi et al. (2016a) schlugen eine Recurrent Support Vector Machine (RSVM) vor, die ein Recurrent Neural Network (RNN) verwendet, um Merkmale aus der Eingabesequenz zu extrahieren, und eine Standard-Support Vector Machine (SVM) zur Zielidentifizierung auf Sequenzebene.

7. Trainings- und Optimierungstechniken

In diesem Abschnitt werden wir kurz einige der wichtigsten Techniken zur Regularisierung und Optimierung tiefer neuronaler Netze (DNN) skizzieren.

7.1 Dropout

Srivastava et al. (2014) schlugen Dropout vor, um eine Überanpassung neuronaler Netze zu verhindern. Dropout ist eine Methode zur Mittelung der Regularisierung eines neuronalen Netzwerkmodells durch Hinzufügen von Rauschen zu seinen verborgenen Einheiten. Während des Trainings zieht es zufällig Einheiten und Verbindungen aus dem neuronalen Netzwerk. Dropout kann in grafischen Modellen wie RBM (Srivastava et al., 2014) oder in jeder Art von neuronalem Netzwerk verwendet werden. Eine kürzlich vorgeschlagene Verbesserung von Dropout ist Fraternal Dropout für Recurrent Neural Networks (RNN).

7.2 Maxout

Goodfellow et al. (2013) schlugen Maxout vor, eine neue Aktivierungsfunktion für Dropout. Die Ausgabe von Maxout ist der Maximalwert einer Reihe von Eingaben, was für die Modellmittelung von Dropout von Vorteil ist.

7.3 Zoneout

Krueger et al. (2016) schlugen Zoneout vor, eine Regularisierungsmethode für wiederkehrende neuronale Netze (RNN). Zoneout verwendet während des Trainings zufällig Rauschen, ähnlich wie Dropout, behält jedoch versteckte Einheiten bei, anstatt sie zu verwerfen.

7.4 Deep Residual Learning

Er et al. (2015) schlugen ein Deep-Residual-Learning-Framework namens ResNet mit geringem Trainingsfehler vor.

7.5 Batch-Normalisierung

Ioffe und Szegedy (2015) schlugen die Batch-Normalisierung als Methode vor, um das Training tiefer neuronaler Netze durch Reduzierung interner Kovariatenverschiebungen zu beschleunigen. Ioffe (2017) schlug eine Batch-Normalisierung vor, die frühere Methoden erweiterte. 7.6 Destillation

7.7 Schichtnormalisierung

Ba et al. (2016) schlugen eine Schichtnormalisierung vor, insbesondere für das beschleunigte Training tiefer neuronaler Netze für RNN, und lösten damit die Einschränkungen der Batch-Normalisierung.

8. Deep Learning Framework

Es gibt eine große Anzahl von Open-Source-Bibliotheken und Frameworks für Deep Learning. Die meisten davon sind für die Programmiersprache Python erstellt. Wie Theano, Tensorflow, PyTorch, PyBrain, Caffe, Blocks and Fuel, CuDNN, Honk, ChainerCV, PyLearn2, Chainer, Torch usw.

9. Anwendungen von Deep Learning

In diesem Abschnitt werden wir kurz einige der jüngsten herausragenden Anwendungen im Deep Learning besprechen. Seit den Anfängen des Deep Learning (DL) werden DL-Methoden in verschiedenen Bereichen in Form von überwachtem, unüberwachtem, halbüberwachtem oder verstärkendem Lernen häufig eingesetzt. Ausgehend von Klassifizierungs- und Erkennungsaufgaben breiten sich DL-Anwendungen schnell in alle Bereiche aus.

Zum Beispiel:

Bildklassifizierung und -erkennung

Videoklassifizierung

Sequenzgenerierung

Fehlerklassifizierung

Text-, Sprach-, Bild- und Videoverarbeitung

Textklassifizierung

Sprachverarbeitung.

Sprache Anerkennung und gesprochene Sprache Verstehen

...

Bildkolorierung

Bildfragen und -antworten

Erzeugen Sie strukturierte und stilisierte Bilder. Visuelle und textuelle Fragen und Antworten. Visuelle Identifizierung und Beschreibung. Objekterkennung Songsynthese

Identitätserkennung ...

Konversationsagenten

Aufruf genetischer Variationen

Krebserkennung

Röntgen-CT-Rekonstruktion

Anfallsvorhersage

Hardwarebeschleunigung

Roboter

Und mehr.

Deng und Yu (2014) bieten eine detaillierte Liste von DL-Anwendungen in den Bereichen Sprachverarbeitung, Informationsabruf, Objekterkennung, Computer Vision, multimodales Lernen, Multitasking-Lernen und anderen Bereichen.

Der Einsatz von Deep Reinforcement Learning (DRL) zum Meistern von Spielen ist heutzutage ein heißes Thema. Hin und wieder werden KI-Roboter mithilfe von DNN und DRL erstellt, die menschliche Weltmeister und Schachgroßmeister in Strategie- und anderen Spielen schlagen, und das bereits nach wenigen Stunden Training. Zum Beispiel Go’s AlphaGo und AlphaGo Zero.

10. Diskussion

Obwohl Deep Learning in vielen Bereichen große Erfolge erzielt hat, liegt noch ein langer Weg vor uns. Es gibt noch viele Bereiche mit Verbesserungsbedarf. Was Einschränkungen angeht, gibt es einige Beispiele. Beispielsweise zeigten Nguyen et al., dass tiefe neuronale Netze (DNN) bei der Bilderkennung leicht getäuscht werden können. Es gibt noch andere Probleme, wie etwa die von Yosinski et al. vorgeschlagene Übertragbarkeit erlernter Merkmale. Huang et al. schlugen eine Architektur zur Abwehr neuronaler Netzwerkangriffe vor und argumentierten, dass zukünftige Arbeiten zur Abwehr dieser Angriffe erforderlich seien. Zhang et al. schlugen einen experimentellen Rahmen zum Verständnis von Deep-Learning-Modellen vor. Sie glaubten, dass das Verständnis von Deep-Learning ein Umdenken und eine Verallgemeinerung erfordert.

Marcus gibt einen wichtigen Überblick über die Rolle, Einschränkungen und Natur von Deep Learning (DL) im Jahr 2018. Er wies nachdrücklich auf die Einschränkungen von DL-Methoden hin, die mehr Daten erfordern, eine begrenzte Kapazität haben, keine Hierarchien verarbeiten können, keine ergebnisoffenen Überlegungen durchführen können, nicht vollständig transparent sein können, sich nicht in Vorwissen integrieren lassen und Ursache und Wirkung nicht unterscheiden können. Er erwähnte auch, dass DL von einer stabilen Welt ausgeht, auf annähernde Weise implementiert wird, schwer zu konstruieren ist und das potenzielle Risiko einer Übertreibung birgt. Marcus glaubt, dass DL neu konzeptualisiert werden muss und nach Möglichkeiten im unbeaufsichtigten Lernen, symbolischer Manipulation und Hybridmodellen gesucht, Erkenntnisse aus der Kognitionswissenschaft und Psychologie gewonnen und mutigere Herausforderungen angenommen werden müssen.

11. Fazit

Obwohl Deep Learning (DL) weltweit schneller voranschreitet als je zuvor, gibt es immer noch viele Aspekte, die es wert sind, studiert zu werden. Wir verstehen Deep Learning immer noch nicht vollständig, wie wir Maschinen intelligenter, näher an oder intelligenter als Menschen machen oder wie Menschen lernen können. DL hat viele Probleme gelöst und gleichzeitig Technologie auf alles angewendet. Doch die Menschheit ist immer noch mit vielen Problemen konfrontiert, etwa mit dem Tod von Menschen durch Hunger und Nahrungsmittelkrisen, Krebs und anderen tödlichen Krankheiten. Wir hoffen, dass sich Deep Learning und künstliche Intelligenz durch die Durchführung der schwierigsten wissenschaftlichen Forschung noch stärker der Verbesserung der Lebensqualität des Menschen widmen werden. Zu guter Letzt: Möge unsere Welt ein besserer Ort werden.

Das obige ist der detaillierte Inhalt vonEine 10.000-Wörter-Rezension zum Thema Deep Learning, die für Anfänger geeignet ist. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen