Heim  >  Artikel  >  Backend-Entwicklung  >  Wie unterscheiden sich Stateful LSTMs in Keras von herkömmlichen LSTMs und wann sollte ich die einzelnen Typen verwenden?

Wie unterscheiden sich Stateful LSTMs in Keras von herkömmlichen LSTMs und wann sollte ich die einzelnen Typen verwenden?

Susan Sarandon
Susan SarandonOriginal
2024-11-05 04:17:02404Durchsuche

How do Stateful LSTMs in Keras differ from traditional LSTMs, and when should I use each type?

Keras Long Short Term Memories (LSTMs) verstehen

Reshaping und Statefulness

Data Reshaping:

Der Umformungsvorgang ist notwendig, um dem von Keras erwarteten Eingabeformat für LSTMs zu entsprechen, nämlich [Samples, Zeitschritte, Features]. In diesem Fall stellen Stichproben die Anzahl der Sequenzen in Ihrem Datensatz dar, Zeitschritte geben die Länge jeder Sequenz an und Features beziehen sich auf die Anzahl der Eingabevariablen für jeden Zeitschritt. Durch die Umformung der Daten stellen Sie sicher, dass der LSTM die Sequenzinformationen ordnungsgemäß verarbeiten kann.

Zustandsbehaftete LSTMs:

Zustandsbehaftete LSTMs behalten während des Trainings ihren internen Zustand über mehrere Stapel hinweg bei. Dadurch können sie sich an die bisher gesehenen Sequenzinformationen „merken“. Im bereitgestellten Beispiel ist „batch_size“ auf 1 gesetzt und der Speicher wird zwischen den Trainingsläufen zurückgesetzt. Dies bedeutet, dass der LSTM seine zustandsbehafteten Fähigkeiten nicht vollständig nutzt. Um die Vorteile von Statefulness zu nutzen, verwenden Sie normalerweise eine Batchgröße größer als 1 und vermeiden das Zurücksetzen der Zustände zwischen Batches. Dadurch kann der LSTM langfristige Abhängigkeiten über mehrere Sequenzen hinweg lernen.

Zeitschritte und Funktionen

Zeitschritte:

Die Anzahl der Zeitschritte gibt die Länge jeder Sequenz in Ihrem Datensatz an. In dem von Ihnen geteilten Bild betrachten Sie den Viele-zu-Eins-Fall, bei dem eine Sequenz variabler Länge zu einer einzigen Ausgabe zusammengefasst wird. Die Anzahl der rosa Kästchen entspricht der Anzahl der Zeitschritte in der Eingabesequenz.

Merkmale:

Die Anzahl der Merkmale bezieht sich auf die Anzahl der jeweiligen Eingabevariablen Zeitschritt. In multivariaten Reihen, wie zum Beispiel der gleichzeitigen Modellierung mehrerer Finanzaktien, hätten Sie für jeden Zeitschritt mehrere Features, die verschiedene vorherzusagende Variablen darstellen.

Zustandsbehaftetes LSTM-Verhalten

Im Diagramm die roten Kästchen stellen verborgene Zustände dar, und die grünen Kästchen stellen Zellzustände dar. Obwohl sie optisch gleich sind, sind sie unterschiedliche Elemente in einem LSTM. Das zustandsbehaftete Verhalten des LSTM bedeutet, dass diese Zustände auf nachfolgende Zeitschritte und Stapel übertragen werden. Es ist jedoch wichtig zu beachten, dass das Zurücksetzen von Zuständen zwischen Trainingsläufen im Beispiel echte Zustandsbezogenheit verhindert.

Erzielen unterschiedlicher LSTM-Konfigurationen

Many-to-Many mit einzelnen Schichten:

Um eine Viele-zu-Viele-Verarbeitung mit einer einzelnen LSTM-Schicht zu erreichen, verwenden Sie return_sequences=True. Dadurch wird sichergestellt, dass die Ausgabeform die Zeitdimension enthält, was mehrere Ausgaben pro Sequenz ermöglicht.

Many-to-One mit einzelnen Ebenen:

Für die Viele-zu-Eins-Verarbeitung setzen Sie return_sequences=False. Dadurch wird die LSTM-Ebene angewiesen, nur den letzten Zeitschritt auszugeben, wodurch die Sequenzinformationen davor effektiv verworfen werden.

Eins-zu-Viele mit Wiederholungsvektor:

Zu erstellen Bei einer Eins-zu-viele-Konfiguration können Sie die RepeatVector-Ebene verwenden, um die Eingabe in mehrere Zeitschritte zu replizieren. Dadurch können Sie eine einzelne Beobachtung in eine LSTM-Ebene einspeisen und mehrere Ausgaben erhalten.

One-to-Many mit Stateful LSTMs:

Ein komplexerer Ansatz zum Erreichen Die Eins-zu-Viele-Verarbeitung erfordert die Verwendung von stateful=True. Indem Sie die Sequenz manuell durchlaufen und die Ausgabe jedes Zeitschritts als Eingabe für den nächsten einspeisen, können Sie eine Reihe von Ausgaben generieren, indem Sie nur einen einzigen Schritt einspeisen. Dies wird häufig für Sequenzgenerierungsaufgaben verwendet.

Komplexe Konfigurationen:

LSTMs können in verschiedenen Konfigurationen gestapelt werden, um komplexe Architekturen zu erstellen. Beispielsweise könnte ein Autoencoder einen Viele-zu-Eins-Encoder mit einem Eins-zu-Viele-Decoder kombinieren, sodass das Modell sowohl das Kodieren als auch das Dekodieren von Sequenzen lernen kann.

Das obige ist der detaillierte Inhalt vonWie unterscheiden sich Stateful LSTMs in Keras von herkömmlichen LSTMs und wann sollte ich die einzelnen Typen verwenden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn