Heim >Technologie-Peripheriegeräte >KI >Eine Fallstudie zur Verwendung des bidirektionalen LSTM-Modells zur Textklassifizierung

Eine Fallstudie zur Verwendung des bidirektionalen LSTM-Modells zur Textklassifizierung

PHPznach vorne: 2024-01-24 10:36:061008Durchsuche

Das bidirektionale LSTM-Modell ist ein neuronales Netzwerk, das zur Textklassifizierung verwendet wird. Unten finden Sie ein einfaches Beispiel, das zeigt, wie bidirektionales LSTM für Textklassifizierungsaufgaben verwendet wird.

Zuerst müssen wir die erforderlichen Bibliotheken und Module importieren:

import os  
import numpy as np  
from keras.preprocessing.text import Tokenizer  
from keras.preprocessing.sequence import pad_sequences  
from keras.models import Sequential  
from keras.layers import Dense, Embedding, Bidirectional, LSTM  
from sklearn.model_selection import train_test_split

Als nächstes müssen wir den Datensatz vorbereiten. Hier gehen wir davon aus, dass der Datensatz bereits im angegebenen Pfad vorhanden ist und drei Dateien enthält: train.txt, dev.txt und test.txt. Jede Datei enthält eine Textsequenz und entsprechende Tags. Wir können den Datensatz mit dem folgenden Code laden:

def load_imdb_data(path):  
    assert os.path.exists(path)  
    trainset, devset, testset = [], [], []  
    with open(os.path.join(path, "train.txt"), "r") as fr:  
        for line in fr:  
            sentence_label, sentence = line.strip().lower().split("\t", maxsplit=1)  
            trainset.append((sentence, sentence_label))  
    with open(os.path.join(path, "dev.txt"), "r") as fr:  
        for line in fr:  
            sentence_label, sentence = line.strip().lower().split("\t", maxsplit=1)  
            devset.append((sentence, sentence_label))  
    with open(os.path.join(path, "test.txt"), "r") as fr:  
        for line in fr:  
            sentence_label, sentence = line.strip().lower().split("\t", maxsplit=1)  
            testset.append((sentence, sentence_label))  
    return trainset, devset, testset

Nach dem Laden des Datensatzes können wir den Text vorverarbeiten und serialisieren. Hier verwenden wir Tokenizer zur Textsegmentierung und füllen dann die Indexsequenz jedes Wortes auf die gleiche Länge auf, damit sie auf das LSTM-Modell angewendet werden kann.

max_features = 20000  
maxlen = 80  # cut texts after this number of words (among top max_features most common words)  
batch_size = 32  
  
print(&#x27;Pad & split data into training set and dev set&#x27;)  
x_train, y_train = [], []  
for sent, label in trainset:  
    x_train.append(sent)  
    y_train.append(label)  
x_train, y_train = pad_sequences(x_train, maxlen=maxlen), np.array(y_train)  
x_train, y_train = np.array(x_train), np.array(y_train)  
x_dev, y_dev = [], []  
for sent, label in devset:  
    x_dev.append(sent)  
    y_dev.append(label)  
x_dev, y_dev = pad_sequences(x_dev, maxlen=maxlen), np.array(y_dev)  
x_dev, y_dev = np.array(x_dev), np.array(y_dev)

Als nächstes können wir ein bidirektionales LSTM-Modell erstellen. In diesem Modell verwenden wir zwei LSTM-Schichten, eine für die Weiterleitung von Informationen und eine für die Rückwärtsweitergabe von Informationen. Die Ausgaben dieser beiden LSTM-Ebenen werden verkettet, um einen leistungsfähigeren Vektor zu bilden, der den Text darstellt. Schließlich verwenden wir eine vollständig verbundene Schicht zur Klassifizierung.

print(&#x27;Build model...&#x27;)  
model = Sequential()  
model.add(Embedding(max_features, 128, input_length=maxlen))  
model.add(Bidirectional(LSTM(64)))  
model.add(LSTM(64))  
model.add(Dense(1, activation=&#x27;sigmoid&#x27;))  
  
print(&#x27;Compile model...&#x27;)  
model.compile(loss=&#x27;binary_crossentropy&#x27;, optimizer=&#x27;adam&#x27;, metrics=[&#x27;accuracy&#x27;])

Jetzt können wir das Modell trainieren. Wir werden den Entwicklungsdatensatz als Validierungsdaten verwenden, um sicherzustellen, dass wir während des Trainings nicht überpassen.

epochs = 10  
batch_size = 64  
  
history = model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, validation_data=(x_dev, y_dev))

Nachdem das Training abgeschlossen ist, können wir die Leistung des Modells am Testsatz bewerten.

test_loss, test_acc = model.evaluate(x_test, y_test)  
print(&#x27;Test accuracy:&#x27;, test_acc)

Das Obige ist ein Beispiel für die Textklassifizierung mithilfe eines einfachen bidirektionalen LSTM-Modells. Sie können auch versuchen, die Parameter des Modells anzupassen, z. B. die Anzahl der Schichten, die Anzahl der Neuronen, Optimierer usw., um eine bessere Leistung zu erzielen. Oder verwenden Sie vorab trainierte Worteinbettungen (wie Word2Vec oder GloVe), um die Einbettungsebene zu ersetzen und mehr semantische Informationen zu erfassen.

Das obige ist der detaillierte Inhalt vonEine Fallstudie zur Verwendung des bidirektionalen LSTM-Modells zur Textklassifizierung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

word2vec lstm

Stellungnahme：

Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：So lösen Sie das Problem fehlender Daten mithilfe generativer KI-VerarbeitungsmethodenNächster Artikel：So lösen Sie das Problem fehlender Daten mithilfe generativer KI-Verarbeitungsmethoden

In Verbindung stehende Artikel

Mehr sehen