Heim  >  Artikel  >  Backend-Entwicklung  >  Erfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen

Erfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen

DDD
DDDOriginal
2024-10-30 10:57:02811Durchsuche

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Zusammenfassung

In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und diese Aufteilung in einer .pkl-Datei speichern, was für das organisierte Training und die Bewertung von Modellen für maschinelles Lernen unerlässlich ist. Der Prozess nutzt die Bibliotheken sklearn und pickle, sodass Sie die verarbeiteten Daten in zukünftigen Projekten wiederverwenden können. Dieser Artikel ist der nächste Schritt in einer Reihe von Tutorials zur Datenvorverarbeitung.

Behandelte Hauptthemen:

  • Notebook-Vorbereitung auf Google Colab
  • Aufteilung des Datensatzes in Trainings- und Testdaten
  • Detaillierte Erklärung des Python-Codes für die Division
  • Speichern der Aufteilung mit Pickle in einer .pkl-Datei
  • Vorteile der Speicherung verarbeiteter Daten für die zukünftige Verwendung

Wichtig: Um diesem Artikel zu folgen, lesen Sie zunächst die folgenden Artikel in der vorgeschlagenen Reihenfolge. Jeder Artikel bietet die Grundlage, die Sie zum Verständnis des nächsten Artikels benötigen, und stellt sicher, dass Sie den gesamten Arbeitsablauf bis zu diesem Punkt verstehen.

Artikel 1: Anwendung von maschinellem Lernen: Ein Leitfaden für den Einstieg als Modelle in der Klassifizierung

Artikel 2:Erforschung der Klassifizierung im maschinellen Lernen: Arten von Variablen

Artikel 3: Entdecken Sie Google Colab: Ihr Verbündeter für die Codierung von Modellen für maschinelles Lernen

Artikel 4:Erkunden von Daten mit Python auf Google Colab: Ein praktischer Leitfaden zur Verwendung des adult.csv-Datensatzes

Artikel 5: Entmystifizierung von Prädiktoren und Klasseneinteilung sowie der Handhabung kategorialer Attribute mit LabelEncoder und OneHotEncoder

Artikel 6:Datenskalierung: Die Grundlage für effiziente Modelle

Einführung

In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Training und Test unterteilen und diese Aufteilung in einer .pkl-Datei speichern. Dieser Prozess ist wichtig, um eine saubere Trennung zwischen den Daten, die zum Trainieren des Modells verwendet werden, und denen, die zur Bewertung seiner Leistung verwendet werden, sicherzustellen.

Starten Sie den Vorgang in Google Colab

Zunächst greifen Sie auf diesen Notizbuch-Link zu und wählen Sie Datei > Speichern Sie eine Kopie auf Drive. Denken Sie daran, dass der Datensatz (adult.csv) bei jedem neuen Beitrag erneut geladen werden muss (weitere Informationen finden Sie in Artikel 4 oben), da jedes Tutorial ein neues Notizbuch erstellt und nur den in diesem Artikel vorgestellten erforderlichen Code hinzufügt, das Notizbuch jedoch mit Der gesamte bisher generierte Code. Eine Kopie des Notizbuchs wird auf Google Drive im Colab Notebooks-Ordner gespeichert, um den Prozess organisiert und kontinuierlich zu halten.

Warum den Datensatz in Training und Test aufteilen?

Das Aufteilen des Datensatzes ist ein grundlegender Schritt in jedem maschinellen Lernprojekt, da es dem Modell ermöglicht, aus einem Teil der Daten zu „lernen“ (Training) und dann anhand neuer, noch nie dagewesener Daten ausgewertet zu werden (Testen). Diese Vorgehensweise ist wichtig, um die Verallgemeinerung des Modells zu messen. Um die Überwachung zu erleichtern, verwenden wir die folgenden Variablen:

  • X_adult_treinamento: Prädiktorvariablen trainieren
  • X_adult_teste: Prädiktorvariablen testen
  • y_adult_treinamento: Trainingszielvariable
  • y_adult_teste: Zielvariable testen

Python-Code zum Aufteilen des Datensatzes

Unten finden Sie den Python-Code zur Durchführung der Aufteilung zwischen Trainings- und Testdaten:

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

Die Abbildung unten zeigt den vorherigen Code mit seinen Ausgaben nach der Ausführung.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Erläuterung des Kodex:

train_test_split: Funktion aus der Sklearn-Bibliothek, die den Datensatz aufteilt.
test_size=0.2: Gibt an, dass 20 % der Daten für Tests und die restlichen 80 % für das Training reserviert werden.
random_state=0: Stellt sicher, dass die Division immer gleich ist und generiert konsistente Ergebnisse für jeden Lauf.
Form:Überprüft die Form der Daten nach der Aufteilung, um zu bestätigen, dass die Aufteilung korrekt erfolgt ist.

Speichern der Teilung in einer .pkl-Datei

Um die Arbeit zu erleichtern und die Konsistenz zwischen verschiedenen Läufen sicherzustellen, speichern wir die Trainings- und Testvariablen in einer .pkl-Datei. Dadurch ist es möglich, die Daten bei Bedarf wiederzuverwenden, ohne die Aufteilung erneut durchführen zu müssen.

Code zum Speichern von Variablen mit pickle:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

Um die Datei adult.pkl auf dem Notizbuch anzuzeigen, klicken Sie einfach auf das Ordnersymbol auf der linken Seite, wie in der Abbildung unten gezeigt.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Erläuterung des Kodex:

pickle: Python-Bibliothek zur Serialisierung von Objekten, sodass Sie komplexe Variablen in Dateien speichern können.
dump: Speichert die Variablen in einer Datei namens adult.pkl. Diese Datei wird in Zukunft gelesen, um den in Training und Test unterteilten Datensatz zu laden und so den Arbeitsablauf zu optimieren.

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und in einer .pkl-Datei speichern. Dieser Prozess ist in maschinellen Lernprojekten von grundlegender Bedeutung und gewährleistet eine organisierte und effiziente Struktur. Im nächsten Artikel werden wir uns mit der Erstellung von Modellen befassen, beginnend mit dem Naive Bayes-Algorithmus und unter Verwendung der Datei adult.pkl, um die Entwicklung fortzusetzen.

Bücher, die ich empfehle

1. Praktische Statistik für Datenwissenschaftler
2. Einführung in die Datenverarbeitung mit Python
3. 2041: Wie künstliche Intelligenz Ihr Leben in den nächsten Jahrzehnten verändern wird
4. Intensiver Python-Kurs
5. Algorithmen verstehen. Ein illustrierter Leitfaden für Programmierer und andere Neugierige
6. Künstliche Intelligenz – Kai-Fu Lee
7. Einführung in die künstliche Intelligenz – ein nicht-technischer Ansatz – Tom Taulli

Neue Kindles

Ich habe die neuen Kindles, die dieses Jahr auf den Markt kamen, detailliert analysiert und ihre wichtigsten Innovationen und Vorteile für digitale Leser hervorgehoben. Den vollständigen Text finden Sie unter folgendem Link: Die faszinierende Welt des digitalen Lesens: Vorteile eines Kindle.

Amazon Prime

Der Beitritt zu Amazon Prime bietet eine Reihe von Vorteilen, darunter unbegrenzten Zugriff auf Tausende von Filmen, Serien und Musik sowie kostenlosen Versand für Millionen von Produkten mit schneller Lieferung. Mitglieder genießen außerdem exklusive Angebote, frühen Zugang zu Werbeaktionen und Vorteile bei Diensten wie Prime Video, Prime Music und Prime Reading, was das Einkaufs- und Unterhaltungserlebnis viel bequemer und reichhaltiger macht.

Bei Interesse nutzen Sie den folgenden Link: AMAZON PRIME, der mir hilft, künstliche Intelligenz und Computerprogrammierung weiterhin zu fördern.

Das obige ist der detaillierte Inhalt vonErfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn