Heim > Artikel > Technologie-Peripheriegeräte > Praxis des NIO-Deep-Learning-Algorithmus
1. Geschäftshintergrund von NIO Power Die Lösung besteht darin, über ein umfassendes Netzwerk von Lade- und Wechseleinrichtungen zu verfügen und sich auf die Cloud-Technologie von NIO zu verlassen, um ein „wiederaufladbares, austauschbares und aufrüstbares“ Energiedienstleistungssystem aufzubauen, das Autobesitzern umfassende Power-up-Dienste bietet. 2. Herausforderungen beim Betrieb und der Wartung von Geräten Schnellladestationen Ladegeräte und andere Geräte stehen derzeit vor vielen Herausforderungen, darunter vor allem:
② Benutzerbeschwerden: Schlechtes Einschalterlebnis.
③ Die Erfolgsquote beim Laden und Tauschen wird aufgrund von Geräteausfällen verringert.
⑤ Die Betriebs- und Wartungskosten sind hoch. 2. Betriebs- und Wartungslösung für NIO Power-Geräte Schnellladestapel) enthalten beide eine große Anzahl von Sensoren, sodass die von den Sensoren in Echtzeit gesammelten Daten zur einheitlichen Speicherung und Verwaltung in der NIO Energy Cloud zusammengeführt werden, und eine vorausschauende Wartungstechnologie auf Basis von PHM (Fault Prediction and Health Management) ist vorhanden Durch die Einführung einer Reihe von KI-Algorithmen wie GAN (Generative Adversarial Network) und Conceptor (Conceptor Network) kann der Status der abnormalen Erkennung und Fehlerdiagnose der Ausrüstung ermittelt und die optimale Entscheidungslösung für die prädiktive Wartung der Ausrüstung bereitgestellt werden Basierend auf den Ergebnissen der Diagnosevorhersage und den ausgaberelevanten Betriebs- und Wartungsarbeiten erkennen Sie Folgendes:
① Eliminieren Sie Sicherheitsrisiken für die Ausrüstung.
② Reduzieren Sie Benutzerbeschwerden über schlechtes Einschalterlebnis.
③ Verbessern Sie die Erfolgsquote beim Laden und Tauschen.
④ Reduzieren Sie Ausfallzeiten durch Geräteausfälle.
⑤ Reduzieren Sie Betriebs- und Wartungskosten.
3. Herausforderungen für die PHM-Technologie
Modernste PHM-Technologien basieren alle auf der datengesteuerten Technologie der künstlichen Intelligenz Modelle sind oft ideal, sie werden unter der Szene konstruiert, aber die reale Szene ist oft nicht ideal.
Wie Sie auf dem Bild oben sehen können, weisen reale Szenen häufig die folgenden Merkmale auf:
① Es gibt nur wenige Fehlermuster.
② Es ist schwierig, Fehlerproben zu kennzeichnen. Dadurch entstehen in diesem Szenario zwei Arten von Problemen: Zum einen handelt es sich um unbeaufsichtigte Lernprobleme und zum anderen um Lernprobleme bei kleinen Stichproben. Als Reaktion auf diese beiden Arten von Problemen, die in realen Szenarien auftreten, haben wir die folgenden PHM-Spitzentechnologien vorgeschlagen und sie in NIO-Power-Szenarien angewendet. Generatives gegnerisches Netzwerk, vorgeschlagen im Jahr 2014, ist eine Art von Deep-Learning-basiertem unbeaufsichtigtem Lernen Die Technologie besteht hauptsächlich aus zwei Teilnetzwerken: Generator und Diskriminator. 4. PHM-Spitzentechnologie
1. Unüberwachte Anomalieerkennung basierend auf generativem gegnerischen Netzwerk (GAN)
(1) GAN-Struktur
Das rote G-Netzwerk im obigen Bild ist das Generatornetzwerk und das blaue D-Netzwerk ist das Diskriminatornetzwerk.
Generatornetzwerk gibt eine Zufallszahlenverteilung (z. B. eine Gaußsche Verteilung) ein und gibt eine vom Benutzer angegebene spezifische Verteilung aus. Aus der Stichprobenperspektive werden 100 Datenproben aus der Zufallszahlenverteilung eingegeben Das G-Netzwerk ordnet diese 100 Stichproben dem gleichen Raum wie die realen Daten zu, um eine Verteilung G(z) zu bilden, und verwendet das Diskriminatornetzwerk, um die Differenz zwischen den beiden Verteilungen G(z) und den realen Daten zu erhalten X: Das G-Netzwerk wird dann optimiert, bis die G(z)-Verteilung nahe an der X-Verteilung der realen Daten liegt. Das G-Netzwerk gibt diese 100 Daten aus und bildet eine spezifische Verteilung G(z). Der Kern des
Diskriminatornetzwerks besteht darin, die ungefähre Jensen-Shanon-Divergenz der G(z)-Verteilung und der realen Daten-x-Verteilung zu konstruieren, um den Unterschied zwischen der generierten Verteilung und der realen Verteilung zu messen . Die ungefähre Jensen-Shanon-Divergenz wird durch ein standardmäßiges binäres Klassifizierungsnetzwerk basierend auf binomialer Kreuzentropie implementiert, und die Ausgabe des Diskriminatornetzwerks ist ein kontinuierlicher Wert von 0 bis 1. Wenn die Ausgabe 1 ist, wird davon ausgegangen, dass die Eingabeprobe X aus der realen Verteilung stammt. Wenn die Ausgabe 0 ist, wird die Eingabeprobe X als falsch und gefälscht betrachtet.
In der Trainingsform des GAN-Netzwerks versuchen die vom Generator erzeugten Proben, der Verteilung realer Proben nahe zu kommen, und der Diskriminator versucht, die generierten Proben als gefälscht zu unterscheiden, um sie dem Generator zur Verfügung zu stellen ein genauerer Jensen – Der Gradient des Shanon-Divergenzwerts ermöglicht es dem Generator, in eine bessere Richtung zu iterieren. Am Ende bilden die beiden eine Konfrontationsbeziehung. Der Generator generiert „verzweifelt“ falsche Daten, und der Diskriminator unterscheidet „verzweifelt“ zwischen wahren und falschen Eingabedaten. Das GAN-Netzwerk wird schließlich einen Gleichgewichtszustand erreichen: Die generierte Datenverteilung G(z) deckt die Verteilung aller realen Stichproben X gerade vollständig ab.
Das GAN-Netzwerk aus mathematischer Sicht zu verstehen, kann anhand der Verlustfunktion verstanden werden. Die Verlustfunktion kann die Wertfunktion V(G, D) verwenden, um die Parameter des G-Netzwerks und des D-Netzwerks durch gemeinsame Minmax-Optimierung für ein bestimmtes G-Netzwerk gleichzeitig zu optimieren. Das Optimierungsziel besteht darin, die Wertfunktion zu minimieren, wie gezeigt in der folgenden Formel:
In der Formel ist JSD der Kernoptimierungsterm der Verlustfunktion und ein Maß für die Differenz zwischen den beiden Verteilungen. Wie aus der Formel hervorgeht, besteht der Kern dieser Optimierung darin, den Verteilungsunterschied zwischen X und G(z) zu minimieren. Je kleiner der Verteilungsunterschied, desto erfolgreicher wird das G-Netzwerk trainiert.
Basierend auf dem GAN-Netzwerk wird Auto-Encoder eingeführt, um die Anomalieerkennung von Gerätebetriebsdaten zu implementieren.
Die spezifische Implementierungsmethode ist:
Der erste Schritt besteht darin, ein GAN-Modell zu erstellen und es zu trainieren, um ein G-Netzwerk zu erhalten, das lediglich die Verteilung der Betriebsdaten der Ausrüstung rekonstruiert.
Der zweite Schritt besteht darin, den D-Netzwerkteil im GAN-Netzwerk zu verwerfen, die G-Netzwerkparameter festzulegen und das Encoder-Netzwerk vor dem G-Netzwerk einzuführen. Auf diese Weise werden das Encoder-Netzwerk und das G-Netzwerk kombiniert bilden einen Satz standardmäßiger Auto-Encoder-Netzwerke. Die Verlustfunktion dieses Netzwerks ist der Rekonstruktionsfehler.
Auf diese Weise können wir die Anomalieerkennung durch Optimierung des Auto-Encoder-Netzwerks abschließen. Das Prinzip dahinter ist: Unabhängig von der Eingabeprobe liegen die vom Auto-Encoder-Netzwerk ausgegebenen Proben innerhalb der normalen Probe Intervall. Wenn es sich bei der Eingabeprobe um eine normale Probe handelt, liegen die generierte Probe und die ursprüngliche Probe daher im gleichen Intervall, sodass der Rekonstruktionsfehler sehr klein oder sogar nahe bei 0 ist Die Probe liegt immer noch innerhalb des normalen Probenintervalls. Dies führt zu einem großen Rekonstruktionsfehler. Daher kann der Rekonstruktionsfehler verwendet werden, um zu bestimmen, ob die Probe normal ist.
Der dritte Schritt besteht darin, eine Reihe von Rekonstruktionsfehlerbewertungen durch eine kleine Menge normaler Stichproben zu erhalten und deren Maximalwert als Rekonstruktionsfehlerschwelle für die Anomalieerkennung zu verwenden.
Dieses Prinzip wurde ausführlich in dem Artikel diskutiert, der 2022 in IEEE in Transactions on Intelligent Transportation Systems veröffentlicht wurde. Die Informationen zum Artikel lauten wie folgt:
M , X. Lu und E. Zio, „Generative Adversarial Networks With AdaBoost Ensemble Learning for Anomaly Detection in High-Speed Train Automatic Doors“, IEEE in Transactions on Intelligent Transportation Systems, 2022.
Die zweite Art von Technologie, die wir verwenden, ist eine unbeaufsichtigte RNN (Conceptor-Netzwerk: Conceptor) Fehlerdiagnosetechnologie bei kleinen Stichproben.
Zunächst stellen wir den Hintergrund dieser Technologie vor – unüberwachtes RNN. Im Vergleich zu gewöhnlichem RNN besteht das Besondere an unbeaufsichtigtem RNN darin, dass die Verbindungsgewichte der Neuronen in der Eingabeschicht des Netzwerks und die Verbindungsgewichte der verborgenen Schichten zufällig initialisiert und während des gesamten Trainings- und Inferenzprozesses festgelegt werden. Dies bedeutet, dass wir die Gewichtsparameter der Eingabeschicht und der verborgenen Schicht nicht trainieren müssen. Daher können wir die Neuronen der verborgenen Schicht im Vergleich zu gewöhnlichen RNN-Netzwerken sehr groß einstellen, sodass die Speicherperiode und die Speicherkapazität der Wenn das Netzwerk sehr groß ist, ist der Speicherzeitraum für die Eingabezeitreihe länger. Die Neuronen der verborgenen Schicht dieses speziellen unbeaufsichtigten RNN werden oft als Reservoir bezeichnet.
① Reservoir-StatusaktualisierungDie Statusaktualisierungsmethode ist dieselbe wie die Standard-RNN-Aktualisierungsmethode.
② Langfristige zeitliche Abhängigkeitsdarstellung durch ConceptorEntwickeln Sie eine unbeaufsichtigte Repräsentationslernmethode, die auf dieser unbeaufsichtigten RNN basiert. Geben Sie insbesondere eine mehrdimensionale Zeitreihe variabler Länge ein und erhalten Sie die RNN jedes Zeitschritts Neuronenzustand; verwenden Sie die Conceptor-Methode (in der Abbildung oben im hellblauen Feld dargestellt), um eine N×N-dimensionale Konzeptmatrix zu erhalten. Im Sinne der linearen Algebra bedeutet diese Matrix: Bei der Verarbeitung von Zeitreihen wird für jeden Zeitschritt das Zeitreihensignal in einen N-dimensionalen Raum projiziert (N entspricht der Skala des verborgenen Neurons).
Wenn es ti# 🎜 🎜# Zeitschritte, dann t#🎜 im N-dimensionalen Raum 🎜 #i Punkte bilden eine Punktwolke; ein solches Punktwolkenellipsoid kann in N zueinander orthogonale Richtungen zerlegt werden, und die Eigenvektoren und Merkmale in jeder Richtung werden als Wert erhalten.
Die Rolle von Conceptor besteht darin, die Eigenwerte und Eigenvektoren zu erfassen und die Eigenwerte zu normalisieren; für diese N Merkmale kann der Vektor verstanden werden Da N Eigenschaften in Zeitreihen erfasst werden (z. B. Periodizität, Trend, Volatilität und andere komplexe Zeitreihenmerkmale), werden implizite Merkmale und alle extrahierten Merkmalsinformationen in dieser N-dimensionalen Matrix erfasst (d. h. die Conceptor-Matrix, das dunkelblaue Kästchen auf der rechten Seite der Abbildung oben).
③ Ähnlichkeitsmaß von Zeitreihen mit variabler Länge Die Grundmerkmale der Matrix bestehen darin, die Conceptor-Matrizen zweier Zeitreihen zu subtrahieren und die Frobenius-Norm zu extrahieren , das heißt, um den Conceptor-Abstand der beiden Zeitreihen zu erhalten; dieser Skalar kann zur Charakterisierung der Differenz zwischen den beiden Zeitreihen verwendet werden.(2) Kleines Beispiel zur Fehlerdiagnose auf Basis von Conceptor
Basierend auf den oben genannten Eigenschaften von Conceptor kann es zur Durchführung kleinerer Stichprobenfehlerdiagnoseanalysen verwendet werden.Wenn es eine kleine Anzahl tatsächlicher Fehlerproben gibt (z. B. (weniger als 10 Fehlerproben) werden alle entsprechenden Zeitreihen in das Conceptor-Netzwerk eingegeben und zur Bildung der entsprechenden Konzeptmatrix aggregiert, die als abstrakte Darstellung des Fehlermodus dieser Kategorie dient. In ähnlicher Weise werden auch normale Proben aggregiert eine normale Konzeptmatrix. Verwenden Sie beim Testen dieselbe Methode, um die entsprechende Konzeptmatrix aus der Eingabezeitreihe zu extrahieren, und führen Sie eine vergleichende Analyse mit den Konzeptmatrizen normaler und abnormaler Stichproben durch, um die entsprechenden Konzeptunterschiede zu berechnen. Wenn die Ähnlichkeit zwischen der Eingabestichprobe und der Konzeptmatrix eines bestimmten Fehlermodus hoch ist, kann davon ausgegangen werden, dass die Stichprobe zu diesem Fehlermodus gehört.
Diese Methode wird auch im folgenden Artikel ausführlich besprochen: #🎜 🎜 #
Mingjing Expertensysteme mit Anwendungen, Band 213, Teil B, 2023, 118962.
5. Anwendungsfall für intelligente Bedienung und Wartung der PHM-Technologie# 🎜🎜#1. Lose Kettenüberwachung des Batteriefachs in der Batteriewechselstation
2. Problemstellung Vibrationen.
Bei fehlenden Vibrationsdaten kann die Lockerung der Kette anhand von Drehmoment, Position, Geschwindigkeit und anderen Signalen des Kettenantriebsmotors erkannt werden. (3) Analyse des Industriemechanismus Das Drehmomentsignal und die Amplitude der Schwankungen weisen einen schwächeren Trend auf.
Die tatsächliche Anzahl der Proben für diesen Fehler ist sehr gering, weniger als 20 Proben. Da diese Art von Fehler jedoch sehr wichtig ist, sind die Genauigkeit und die Rückrufrate des Vorhersagemodells sehr hoch.
(4) Modellentwurf zur Kettenlockerungserkennung
① Teilen Sie zunächst die Originaldaten in Zeitreihen auf und extrahieren Sie die Drehmomentdaten des gleichmäßigen Prozesses für die langen Zeitreihen.
② Zerlegen Sie dann die Zeitreihe und behalten Sie nur die Schwankungseigenschaften der Zeitreihe bei.
Unter diesen handelt es sich hauptsächlich um das Algorithmusmodul, das an der oben erwähnten Feature-Entwicklung beteiligt ist. In diesem Fall verwendet die Algorithmusschicht den AE-GAN-Algorithmus basierend auf den abnormalen Bewertungsergebnissen der Algorithmusschicht Die Feature-Tabelle in der Feature-Ebene. Weitere Beurteilungen und Entscheidungen werden in der Modellebene getroffen. Der endgültige Ausgabearbeitsauftrag wird zur Verarbeitung an den Spezialisten gesendet. Basierend auf dem oben genannten Prozess wird die traditionelle Erkennung von Expertenerfahrungen auf die Erkennung von KI-Algorithmen aktualisiert und die Genauigkeitsrate um mehr als 30 % erhöht.
2. Fehlerdiagnose wegen Verschlechterung der Stapelpistolenspitze(1) Analyse des industriellen Mechanismus
Zunächst wird ein physikalisches Modell basierend auf dem Ladestrom, der Spannung, der Temperatur und anderen physikalischen Signalen des Ladevorgangs erstellt Pistole, um die Eigenschaften der Pistolenspitze zu erhalten. Die physikalische Größe des Temperaturanstiegskoeffizienten wird als charakteristisches Signal für die weitere Fehlerdiagnose verwendet. Allerdings verwendet diese Art des physikbasierten Feature-Engineerings normalerweise Zeitgleitfenster zur Feature-Generierung und erhält schließlich eine neue Zeitreihe, da das Feature-Ergebnis oft verrauscht ist.
Nehmen Sie die folgende Abbildung als Beispiel. Dieses Projekt wählt normalerweise eine Woche oder einen Monat Daten als Zeitfenster aus, um eine charakteristische Zeitreihe ähnlich der folgenden Abbildung zu erhalten. Aus der Abbildung ist ersichtlich, dass das Rauschen dieser Sequenz sehr groß ist und es schwierig ist, direkt zwischen verschlechterten Proben und normalen Proben zu unterscheiden.
Darüber hinaus liegt die Anzahl der beschädigten Spitzen bei tatsächlichen Ausfallproben oft unter 50.
Basierend auf den beiden oben genannten Gründen wird das Conceptor-Modell eingeführt, um manuelle Erfahrungen zu beseitigen und die Zeitreiheneigenschaften verschlechterter Proben automatisch durch das Modell zu erfassen. 2) Fehlerdiagnoseprozess Ersetzen Sie jemals die Pistolenspitze.
Basierend auf dem oben genannten Prozess wird die herkömmliche Methode zur Erkennung von Mechanismusmodellen zu einer Methode zur Erkennung von Mechanismusmodellen in Kombination mit der KI-Algorithmus-Erkennungsmethode aktualisiert, wodurch die Fehlalarmrate des Modells auf 1/5 des Originals reduziert werden kann.
6. Frage- und AntwortsitzungF1: Wie kann man im AE-GAN-Modell normale Proben von abnormalen Proben unterscheiden?
A2: Beim Training des GAN-Netzwerks werden entweder normale Daten oder abnormale Daten in einem bestimmten Modus verwendet und gemischte Daten werden nicht verwendet Training, sodass Probleme wie ein Probenungleichgewicht nicht auftreten. Wenn in den tatsächlichen Daten eine große Lücke zwischen den beiden Arten von Datenproben besteht, wird im Allgemeinen ein GAN-Netzwerk 1 für normale Proben trainiert, und dann wird ein GAN-Netzwerk 2 für ein bestimmtes festes Muster abnormaler Proben trainiert Testproben werden auf der Grundlage der Rekonstruktionsfehler der beiden Netzwerke getestet. Endgültige Beurteilung.
A3: Der Moduskollaps ist das Kernproblem beim GAN-Modelltraining. Erstens verstehen Sie den Zusammenbruch des Modus und zweitens konzentrieren Sie sich auf die Kernaufgaben des GAN-Trainings.
Moduszusammenbruch sind die vom Generator Focus generierten Daten auf einen bestimmten Bereich; der Grund dafür ist die Vernachlässigung der Definition der Verlustfunktion im GAN-Netzwerk. Während des GAN-Netzwerktrainingsprozesses werden der Verlust des G-Netzwerks und der Verlust des D-Netzwerks normalerweise separat berechnet, und die gemeinsame Verlustfunktion der beiden Netzwerke (dh der JSD-Verlust in der Formel) wird häufig ignoriert. Wenn ein Zusammenbruch des Trainingsmodus auftritt, konvergiert der JSD-Verlust häufig nicht; daher kann die Visualisierung des JSD-Verlusts während des Trainingsprozesses effektiv einen Moduszusammenbruch verhindern. Dies ist auch der Grund, warum viele neuere verbesserte Versionen von GAN-Modellen herausstechen und bessere Ergebnisse erzielen konnten. Darüber hinaus können auch durch die Einführung spezifischer Tricks in Standard-GAN-Netzwerke ähnliche Effekte erzielt werden.
A4: Für Szenarien, in denen eine große Diskrepanz zwischen positiven und negativen Proben besteht und Sie häufig verwendete LSTM-, RNN-, GRNN- und andere Modelle verwenden, Sie werden häufig mit dem Problem konfrontiert, dass die Verlustfunktion nicht konvergiert. Daher besteht die Möglichkeit, solche Probleme zu lösen, darin, vom unbeaufsichtigten Lernen auszugehen, das Gewicht der verborgenen Schicht des Hauptnetzwerks zufällig festzulegen und bestimmte Methoden zu verwenden Um die charakteristischen Komponenten der generierten Konzeptmatrix zu regulieren, ist der Gewichtsparameter zwar zufällig, aber die erhaltene Darstellungskomponente kann die verborgenen Eigenschaften der Zeitreihe widerspiegeln und reicht aus, um kleine Stichprobenszenen zu unterscheiden Die Ebene wird zufällig festgelegt.
A5: Das Modell ist wie unten gezeigt.
Unter ihnen der Reserveteil ist dasselbe wie gewöhnlich. Das RNN-Netzwerk ist im Grunde dasselbe. Der einzige Unterschied besteht darin, dass Win # und W zufällig festgelegt werden (beachten Sie, dass sie werden nur einmal zufällig generiert. Anschließend wird der verborgene Zustand des Neurons bei jedem Zeitschritt berechnet und aktualisiert und die entsprechende Konzeptmatrix erhalten. Das Obige ist die vollständige Version von Conceptor. F6: Wie ist der Trainingsprozess des Encoder-Netzwerks in AE-GAN? Was sind Input und Output?
trainiert zunächst ein Standard-GAN und repariert dann das G-Netzwerk Fügen Sie dann vor dem G-Netzwerk ein Encoder-Netzwerk ein, um die beiden Netzwerke zu einem Auto-Encoder-Netzwerk zu verbinden. Die Eingabe des Auto-Encoder-Netzwerks ist die ursprüngliche Datenprobe, und die Ausgabe ist die rekonstruierte Datenprobe. Das AE-GAN-Netzwerk identifiziert abnormale Daten durch die Erstellung rekonstruierter Proben.
A7: Einzelheiten finden Sie in den entsprechenden Kapiteln des Artikels. Der Code ist noch nicht Open Source.
A8: Es kann verwendet werden. Im Vergleich zu gewöhnlichen Signalen weist das Bildfeld jedoch größere Abmessungen, eine komplexere Datenverteilung und eine größere Datenmenge auf, die für das Training erforderlich ist. Wenn es zur Bildklassifizierung verwendet wird und nur wenige Datenproben vorhanden sind, wird der Modelleffekt beeinträchtigt. Wenn es zur Anomalieerkennung verwendet wird, ist der Effekt immer noch gut.
A9: Die intuitivsten Bewertungsindikatoren sind die Falsch-Positiv-Rate und die Falsch-Negativ-Rate. Weitere wissenschaftliche Indikatoren sind die Rückrufrate, die Präzisionsrate, der F-Score usw.
A10: Wenn es keinen direkteren und schnelleren Weg gibt, Fehlermerkmale zu erhalten, wird im Allgemeinen eine rein datengesteuerte Methode zum Mining von Fehlerbeispielmerkmalen verwendet. Im Allgemeinen wird ein Deep-Learning-Netzwerk aufgebaut, um die wichtigsten Merkmale zu erlernen Fehlerbeispiele und wird als Konzeptmatrix bezeichnet.
A11: Für eine kleine Anzahl von Proben wird im Allgemeinen die unbeaufsichtigte RNN-Methode zur Charakterisierung der Dateneigenschaften verwendet. Wenn eine große Anzahl normaler Proben für Anomalieerkennungsprobleme vorhanden ist, kann das AE-GAN-Netzwerk verwendet werden es umsetzen.
A12: Die von RNN ausgegebene Konzeptmatrix kann als die Menge aller Merkmale in der Eingabezeitreihe verstanden werden, da die Eigenschaften der Daten im selben Zustand ähnlich sind, die Konzeptmatrix aller Stichproben in diesem Zustand wird gemittelt und aggregiert, das heißt, die Konzeptzentrumsmatrix wird für die Eingabezeitreihe des unbekannten Zustands abstrahiert, indem die Konzeptzentrumsmatrix berechnet und mit der Konzeptzentrumsmatrix verglichen wird Ähnlichkeit ist die Kategorie, die den Eingabedaten entspricht.
A13: Verwenden Sie nach Abschluss des Netzwerktrainings eine kleine Menge normaler Beispieldaten, um den Rekonstruktionsfehler zu berechnen, und verwenden Sie den Maximalwert als Schwellenwert.
A14: Im Allgemeinen wird es nicht aktualisiert. Wenn sich jedoch die ursprüngliche Datenverteilung ändert (z. B. wenn sich die Betriebsbedingungen ändern), muss der Schwellenwert möglicherweise neu trainiert werden, und es können sogar Methoden zum Transferlernen in das GAN eingeführt werden Netzwerk. Passen Sie den Schwellenwert an.
A15: GAN trainiert im Allgemeinen nicht die ursprüngliche Zeitreihe, sondern trainiert Merkmale, die auf der Grundlage der ursprünglichen Zeitreihe extrahiert wurden.
A16: Traditionelles GAN wird auch häufig zur Anomalieerkennung verwendet. AE-GAN verfügt über eine eingehendere Analyse der GAN-Prinzipien, sodass auch Probleme wie der Moduskollaps weitestgehend vermieden werden können, und die Einführung von Auto-Encoder kann sicherstellen, dass das Prinzip der Anomalieerkennung genau ausgeführt wird. Dadurch wird die Fehlalarmrate reduziert.
A17: Das Fehlerdiagnosemodell ist in viele Ebenen unterteilt und stellt nur die Grundlage für die Entscheidungsebene dar. Sie werden im Allgemeinen zur Unterstützung mit anderen Geschäftslogiken kombiniert Urteil.
A18: Im Allgemeinen werden auf der Grundlage der Ergebnisse der Anomalieerkennung technische Spezialisten benannt, die dies am realen Tatort bestätigen.
A19: Ähnliche Versuche sind im Gange.
A20: Das im Artikel erwähnte Conceptor-Modell kann Zeitreihen beliebiger Länge verarbeiten, sodass keine Nullen eingegeben werden müssen, und das auch vermeidet den Parameter „Training“ Prozess, sodass diese Art von Problem vermieden werden kann.
A21: Wenn es nur im Bereich der Anomalieerkennung verwendet wird, gilt: Je mehr „Überanpassung“, desto besser ist die Modellleistung. Darüber hinaus kommt es aufgrund der großen Zufälligkeit im G-Netzwerk des GAN-Modells während des Trainingsprozesses im Allgemeinen nicht zu einer Überanpassung.
A22: Diese Art von Problem hängt im Allgemeinen von der Größe des neuronalen Netzwerks, den Abmessungen der verborgenen Neuronen usw. ab. Im Allgemeinen muss für ein zweischichtiges neuronales Netzwerk mit 100 Neuronen pro Schicht das Volumen der Trainingsdaten 1-2 Größenordnungen größer sein als die Dimension der verborgenen Schicht, um bessere Ergebnisse zu erzielen Außerdem müssen einige Tricks angewendet werden, um einen Zusammenbruch des Modus zu vermeiden.
A23: Viele derzeit online verfügbare Conceptor-Modelle verwenden den gleichen Satz empirischer Parameter ohne weitere Parameteranpassung; basierend auf praktischen Erfahrungen sind die relevanten Parametereinstellungen ab 10 bis 100 haben nur geringe Auswirkungen auf die Ergebnisse und der einzige Unterschied ist der Rechenaufwand. Wenn die Stichprobengröße der Fehlerdaten klein ist und Sie genauere Ergebnisse wünschen, können Sie die Parameter auf 128, 256 oder sogar höher einstellen. Dementsprechend ist der Berechnungsaufwand höher. Die Anzahl der Labels zur Fehleranalyse liegt im Allgemeinen zwischen 1 und 10. Die Quantifizierung des Geschäftswerts wird im Allgemeinen anhand von Fehlalarmen und verpassten Alarmen gemessen, da Fehlalarme und verpasste Alarme direkt in quantitative Auswirkungen auf den Geschäftswert umgewandelt werden können.
A24: Sie können die Conceptor-Methode verwenden, um das Zeitwachstumsfenster zu verwenden, um mehrere Konzeptmatrizen zu bilden; und zur Bestimmung eine spektrale Clusterbildung an der Konzeptmatrix durchführen Zeitpunkt des Auftretens der Störung. Weitere Informationen finden Sie in den entsprechenden Artikeln im Kapitel „Conceptor“.
A25: In realen Szenarien variieren die normalen Daten aufgrund unterschiedlicher Betriebsbedingungen der Geräte oft stark.
A26: Es ist schwierig, die spezifischen Nutzungsszenarien dieser beiden Modelle klar zu trennen; im Allgemeinen ist GAN besser darin, Probleme mit speziellen und sehr einfachen Lösungen zu lösen Spezielle Datenverteilung Diese Art von Problem ist mit einem Klassifizierungsnetzwerk schwer zu charakterisieren, und unbeaufsichtigtes RNN eignet sich besser für die Behandlung kleiner Stichprobenprobleme.
A27: Wenn domänenspezifisches Wissen eingeführt werden kann, um Funktionen höherer Ordnung zu extrahieren, ist dies im Allgemeinen möglich; Bilder werden zur Erkennung verwendet. Wenn die Bildstichprobengröße groß ist und normales Verhalten charakterisieren kann, kann das Problem in die Szenenerkennung mit CV-Domänenunterteilung umgewandelt werden, die mithilfe des in diesem Artikel erwähnten Modells erkannt werden kann.
A28: Es ist parameterlos.
A29: Dies hängt vom spezifischen Szenario ab, einschließlich der Anforderungen des Modells, der Stichprobengröße des Fehlers und der Komplexität der Verteilung. Wenn die Ähnlichkeit der Zeitwellenformen zweier Fehler sehr hoch ist, besteht im Allgemeinen keine Notwendigkeit, ein separates Modell zu trainieren. Sie müssen jedoch nur ein Multiklassifizierungsmodell erstellen, um die Klassifizierungsgrenzen der beiden zu bestimmen Fehlermodi sind sehr unterschiedlich. Sie können das GAN-Modell verwenden, um die Daten genau zu identifizieren.
A30: Der Trainingsaufwand des Conceptor-Modells ist sehr gering und kann zum Extrahieren von Features verwendet werden; die Trainingszeit des GAN-Modells ist relativ länger , aber für gemeinsame Strukturen Mit tabellarischen Daten wird die Trainingszeit nicht zu lang sein.
A31: Die beiden Modelle selbst stellen keine Anforderungen an die Anzahl der positiven und negativen Proben; in Anbetracht der Modelltrainingszeit sind es im Allgemeinen Tausende repräsentativer Proben ausgewählte Trainingsbeispiele. Im Allgemeinen gibt es keine Mindestanzahlempfehlung für die Häufigkeit in einer Timing-Teilmenge.
A32: Die Dimension der Merkmalsmatrix steht in direktem Zusammenhang mit der Anzahl der versteckten Neuronen, wenn es N versteckte Neuronen gibt Die Merkmalsmatrix ist N × N. In Anbetracht der Komplexität des Modells und der Berechnungseffizienz wird N im Allgemeinen nicht zu groß eingestellt und ein häufig verwendeter Einstellwert ist 32.
A33: Gemäß dem GAN-Prinzip wird das D-Netzwerk verwendet, um normale Proben und gefälschte Proben zu unterscheiden. „Kompletter Körper“-ZustandEs wird normalen Proben sehr nahe kommen, was es schwierig macht, zwischen normalen Proben und abnormalen Proben zu unterscheiden. Das AE-GAN-Netzwerk geht davon aus, dass normale Proben und abnormale Proben einen gewissen Grad an Unterscheidung aufweisen, was theoretisch ist Grundlage für die Verwendung von AE-GAN.
A34: Die Generalisierungsfähigkeit des Modells muss auf einer apriorischen Annahme basieren: Alle Fehler desselben Typs weisen eine ähnliche Datenverteilung auf. Wenn die Verteilung ähnlicher Fehlerdaten sehr unterschiedlich ist, ist es in der Regel erforderlich, die Fehlerkategorien weiter zu unterteilen, um die Generalisierungsfähigkeit des Modells sicherzustellen.
A35: Für die beiden im Artikel genannten Modelle müssen die Daten nur normalisiert werden.
A36: Durch die Vollständigkeit der Theorie kann GAN die Verteilung normaler Stichprobendaten vollständiger darstellen und dadurch eine vollständigere Entscheidungsgrenze erstellen. Methoden wie gewöhnliche AE, isolierte Gesamtstruktur und One-Class-SVM weisen jedoch keine theoretische Vollständigkeit auf und können keine vollständigere Entscheidungsgrenze konstruieren.
A37: Wenn der Diskriminator tatsächlich keine normalen Proben und gefälschten Proben identifizieren kann, ist von außen ersichtlich, dass das Training des Generators sehr erfolgreich ist. In der Anomalieerkennungsphase wird nur der Generator verwendet Der Diskriminator wird nicht verwendet. Der Generator im GAN-Netzwerk ist von großer Bedeutung, sodass AE-GAN nicht zu AE degeneriert. Es kann als aktualisierte Version von AE verstanden werden, bei der es sich um eine regulierte AE handelt.
A38: In Szenarien mit kleinen Stichproben und hohen Anforderungen an die Interpretierbarkeit wurde noch kein solcher Versuch unternommen, und entsprechende Versuche werden möglicherweise später unternommen.
A39: VAE ist auch eine häufig verwendete Methode zur Anomalieerkennung. VAE verwendet eine vorherige Gaußsche Verteilung in der verborgenen Schicht und ändert die Form der vorherigen Gaußschen Verteilung, um sie an die realen Daten anzupassen, wodurch die beiden Verteilungen äquivalent werden. VAE verwendet jedoch die Verlustfunktion KL-Divergenz anstelle von JSD-Divergenz, und KL-Divergenz ist asymmetrisch und funktioniert in komplexen Beispielen möglicherweise nicht gut.
A40: Der Ladepistolenkoffer im Artikel weist erhebliche Geräusche auf. Einige auf Zeitreihen basierende Zerlegungsmethoden können periodische Elemente, Trendelemente, Rauschelemente usw. in der Zeitreihe zerlegen. Fehlende Merkmale können mithilfe unvollständiger Datenmethoden verarbeitet werden.
A41: Am Beispiel von GAN wird die Probenverbesserung hauptsächlich durch Hinzufügen von Rauschen durchgeführt, und die APA-Verbesserungsstrategie wird nicht verwendet.
A42: Die in diesem Artikel bereitgestellten Referenzen enthalten viele extreme Beispiele. Das von Ihnen zitierte Beispiel ist beispielsweise ein typisches Beispiel für eine Zwei-Gauß-Kugel. AE-GAN kann diese Art von Problemen lösen.
Das obige ist der detaillierte Inhalt vonPraxis des NIO-Deep-Learning-Algorithmus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!