Heim >Backend-Entwicklung >Python-Tutorial >Erfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen
In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und diese Aufteilung in einer .pkl-Datei speichern, was für das organisierte Training und die Bewertung von Modellen für maschinelles Lernen unerlässlich ist. Der Prozess nutzt die Bibliotheken sklearn und pickle, sodass Sie die verarbeiteten Daten in zukünftigen Projekten wiederverwenden können. Dieser Artikel ist der nächste Schritt in einer Reihe von Tutorials zur Datenvorverarbeitung.
Wichtig: Um diesem Artikel zu folgen, lesen Sie zunächst die folgenden Artikel in der vorgeschlagenen Reihenfolge. Jeder Artikel bietet die Grundlage, die Sie zum Verständnis des nächsten Artikels benötigen, und stellt sicher, dass Sie den gesamten Arbeitsablauf bis zu diesem Punkt verstehen.
Artikel 1: Anwendung von maschinellem Lernen: Ein Leitfaden für den Einstieg als Modelle in der Klassifizierung
Artikel 2:Erforschung der Klassifizierung im maschinellen Lernen: Arten von Variablen
Artikel 3: Entdecken Sie Google Colab: Ihr Verbündeter für die Codierung von Modellen für maschinelles Lernen
Artikel 4:Erkunden von Daten mit Python auf Google Colab: Ein praktischer Leitfaden zur Verwendung des adult.csv-Datensatzes
Artikel 5: Entmystifizierung von Prädiktoren und Klasseneinteilung sowie der Handhabung kategorialer Attribute mit LabelEncoder und OneHotEncoder
Artikel 6:Datenskalierung: Die Grundlage für effiziente Modelle
In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Training und Test unterteilen und diese Aufteilung in einer .pkl-Datei speichern. Dieser Prozess ist wichtig, um eine saubere Trennung zwischen den Daten, die zum Trainieren des Modells verwendet werden, und denen, die zur Bewertung seiner Leistung verwendet werden, sicherzustellen.
Zunächst greifen Sie auf diesen Notizbuch-Link zu und wählen Sie Datei > Speichern Sie eine Kopie auf Drive. Denken Sie daran, dass der Datensatz (adult.csv) bei jedem neuen Beitrag erneut geladen werden muss (weitere Informationen finden Sie in Artikel 4 oben), da jedes Tutorial ein neues Notizbuch erstellt und nur den in diesem Artikel vorgestellten erforderlichen Code hinzufügt, das Notizbuch jedoch mit Der gesamte bisher generierte Code. Eine Kopie des Notizbuchs wird auf Google Drive im Colab Notebooks-Ordner gespeichert, um den Prozess organisiert und kontinuierlich zu halten.
Das Aufteilen des Datensatzes ist ein grundlegender Schritt in jedem maschinellen Lernprojekt, da es dem Modell ermöglicht, aus einem Teil der Daten zu „lernen“ (Training) und dann anhand neuer, noch nie dagewesener Daten ausgewertet zu werden (Testen). Diese Vorgehensweise ist wichtig, um die Verallgemeinerung des Modells zu messen. Um die Überwachung zu erleichtern, verwenden wir die folgenden Variablen:
Unten finden Sie den Python-Code zur Durchführung der Aufteilung zwischen Trainings- und Testdaten:
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
Die Abbildung unten zeigt den vorherigen Code mit seinen Ausgaben nach der Ausführung.
train_test_split: Funktion aus der Sklearn-Bibliothek, die den Datensatz aufteilt.
test_size=0.2: Gibt an, dass 20 % der Daten für Tests und die restlichen 80 % für das Training reserviert werden.
random_state=0: Stellt sicher, dass die Division immer gleich ist und generiert konsistente Ergebnisse für jeden Lauf.
Form:Überprüft die Form der Daten nach der Aufteilung, um zu bestätigen, dass die Aufteilung korrekt erfolgt ist.
Um die Arbeit zu erleichtern und die Konsistenz zwischen verschiedenen Läufen sicherzustellen, speichern wir die Trainings- und Testvariablen in einer .pkl-Datei. Dadurch ist es möglich, die Daten bei Bedarf wiederzuverwenden, ohne die Aufteilung erneut durchführen zu müssen.
Code zum Speichern von Variablen mit pickle:
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
Um die Datei adult.pkl auf dem Notizbuch anzuzeigen, klicken Sie einfach auf das Ordnersymbol auf der linken Seite, wie in der Abbildung unten gezeigt.
pickle: Python-Bibliothek zur Serialisierung von Objekten, sodass Sie komplexe Variablen in Dateien speichern können.
dump: Speichert die Variablen in einer Datei namens adult.pkl. Diese Datei wird in Zukunft gelesen, um den in Training und Test unterteilten Datensatz zu laden und so den Arbeitsablauf zu optimieren.
In diesem Artikel haben Sie erfahren, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und in einer .pkl-Datei speichern. Dieser Prozess ist in maschinellen Lernprojekten von grundlegender Bedeutung und gewährleistet eine organisierte und effiziente Struktur. Im nächsten Artikel werden wir uns mit der Erstellung von Modellen befassen, beginnend mit dem Naive Bayes-Algorithmus und unter Verwendung der Datei adult.pkl, um die Entwicklung fortzusetzen.
1. Praktische Statistik für Datenwissenschaftler
2. Einführung in die Datenverarbeitung mit Python
3. 2041: Wie künstliche Intelligenz Ihr Leben in den nächsten Jahrzehnten verändern wird
4. Intensiver Python-Kurs
5. Algorithmen verstehen. Ein illustrierter Leitfaden für Programmierer und andere Neugierige
6. Künstliche Intelligenz – Kai-Fu Lee
7. Einführung in die künstliche Intelligenz – ein nicht-technischer Ansatz – Tom Taulli
Ich habe die neuen Kindles, die dieses Jahr auf den Markt kamen, detailliert analysiert und ihre wichtigsten Innovationen und Vorteile für digitale Leser hervorgehoben. Den vollständigen Text finden Sie unter folgendem Link: Die faszinierende Welt des digitalen Lesens: Vorteile eines Kindle.
Der Beitritt zu Amazon Prime bietet eine Reihe von Vorteilen, darunter unbegrenzten Zugriff auf Tausende von Filmen, Serien und Musik sowie kostenlosen Versand für Millionen von Produkten mit schneller Lieferung. Mitglieder genießen außerdem exklusive Angebote, frühen Zugang zu Werbeaktionen und Vorteile bei Diensten wie Prime Video, Prime Music und Prime Reading, was das Einkaufs- und Unterhaltungserlebnis viel bequemer und reichhaltiger macht.
Bei Interesse nutzen Sie den folgenden Link: AMAZON PRIME, der mir hilft, künstliche Intelligenz und Computerprogrammierung weiterhin zu fördern.
Das obige ist der detaillierte Inhalt vonErfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!