


Erfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen
Zusammenfassung
In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und diese Aufteilung in einer .pkl-Datei speichern, was für das organisierte Training und die Bewertung von Modellen für maschinelles Lernen unerlässlich ist. Der Prozess nutzt die Bibliotheken sklearn und pickle, sodass Sie die verarbeiteten Daten in zukünftigen Projekten wiederverwenden können. Dieser Artikel ist der nächste Schritt in einer Reihe von Tutorials zur Datenvorverarbeitung.
Behandelte Hauptthemen:
- Notebook-Vorbereitung auf Google Colab
- Aufteilung des Datensatzes in Trainings- und Testdaten
- Detaillierte Erklärung des Python-Codes für die Division
- Speichern der Aufteilung mit Pickle in einer .pkl-Datei
- Vorteile der Speicherung verarbeiteter Daten für die zukünftige Verwendung
Wichtig: Um diesem Artikel zu folgen, lesen Sie zunächst die folgenden Artikel in der vorgeschlagenen Reihenfolge. Jeder Artikel bietet die Grundlage, die Sie zum Verständnis des nächsten Artikels benötigen, und stellt sicher, dass Sie den gesamten Arbeitsablauf bis zu diesem Punkt verstehen.
Artikel 1: Anwendung von maschinellem Lernen: Ein Leitfaden für den Einstieg als Modelle in der Klassifizierung
Artikel 2:Erforschung der Klassifizierung im maschinellen Lernen: Arten von Variablen
Artikel 3: Entdecken Sie Google Colab: Ihr Verbündeter für die Codierung von Modellen für maschinelles Lernen
Artikel 4:Erkunden von Daten mit Python auf Google Colab: Ein praktischer Leitfaden zur Verwendung des adult.csv-Datensatzes
Artikel 5: Entmystifizierung von Prädiktoren und Klasseneinteilung sowie der Handhabung kategorialer Attribute mit LabelEncoder und OneHotEncoder
Artikel 6:Datenskalierung: Die Grundlage für effiziente Modelle
Einführung
In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Training und Test unterteilen und diese Aufteilung in einer .pkl-Datei speichern. Dieser Prozess ist wichtig, um eine saubere Trennung zwischen den Daten, die zum Trainieren des Modells verwendet werden, und denen, die zur Bewertung seiner Leistung verwendet werden, sicherzustellen.
Starten Sie den Vorgang in Google Colab
Zunächst greifen Sie auf diesen Notizbuch-Link zu und wählen Sie Datei > Speichern Sie eine Kopie auf Drive. Denken Sie daran, dass der Datensatz (adult.csv) bei jedem neuen Beitrag erneut geladen werden muss (weitere Informationen finden Sie in Artikel 4 oben), da jedes Tutorial ein neues Notizbuch erstellt und nur den in diesem Artikel vorgestellten erforderlichen Code hinzufügt, das Notizbuch jedoch mit Der gesamte bisher generierte Code. Eine Kopie des Notizbuchs wird auf Google Drive im Colab Notebooks-Ordner gespeichert, um den Prozess organisiert und kontinuierlich zu halten.
Warum den Datensatz in Training und Test aufteilen?
Das Aufteilen des Datensatzes ist ein grundlegender Schritt in jedem maschinellen Lernprojekt, da es dem Modell ermöglicht, aus einem Teil der Daten zu „lernen“ (Training) und dann anhand neuer, noch nie dagewesener Daten ausgewertet zu werden (Testen). Diese Vorgehensweise ist wichtig, um die Verallgemeinerung des Modells zu messen. Um die Überwachung zu erleichtern, verwenden wir die folgenden Variablen:
- X_adult_treinamento: Prädiktorvariablen trainieren
- X_adult_teste: Prädiktorvariablen testen
- y_adult_treinamento: Trainingszielvariable
- y_adult_teste: Zielvariable testen
Python-Code zum Aufteilen des Datensatzes
Unten finden Sie den Python-Code zur Durchführung der Aufteilung zwischen Trainings- und Testdaten:
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
Die Abbildung unten zeigt den vorherigen Code mit seinen Ausgaben nach der Ausführung.
Erläuterung des Kodex:
train_test_split: Funktion aus der Sklearn-Bibliothek, die den Datensatz aufteilt.
test_size=0.2: Gibt an, dass 20 % der Daten für Tests und die restlichen 80 % für das Training reserviert werden.
random_state=0: Stellt sicher, dass die Division immer gleich ist und generiert konsistente Ergebnisse für jeden Lauf.
Form:Überprüft die Form der Daten nach der Aufteilung, um zu bestätigen, dass die Aufteilung korrekt erfolgt ist.
Speichern der Teilung in einer .pkl-Datei
Um die Arbeit zu erleichtern und die Konsistenz zwischen verschiedenen Läufen sicherzustellen, speichern wir die Trainings- und Testvariablen in einer .pkl-Datei. Dadurch ist es möglich, die Daten bei Bedarf wiederzuverwenden, ohne die Aufteilung erneut durchführen zu müssen.
Code zum Speichern von Variablen mit pickle:
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
Um die Datei adult.pkl auf dem Notizbuch anzuzeigen, klicken Sie einfach auf das Ordnersymbol auf der linken Seite, wie in der Abbildung unten gezeigt.
Erläuterung des Kodex:
pickle: Python-Bibliothek zur Serialisierung von Objekten, sodass Sie komplexe Variablen in Dateien speichern können.
dump: Speichert die Variablen in einer Datei namens adult.pkl. Diese Datei wird in Zukunft gelesen, um den in Training und Test unterteilten Datensatz zu laden und so den Arbeitsablauf zu optimieren.
Abschluss
In diesem Artikel haben Sie erfahren, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und in einer .pkl-Datei speichern. Dieser Prozess ist in maschinellen Lernprojekten von grundlegender Bedeutung und gewährleistet eine organisierte und effiziente Struktur. Im nächsten Artikel werden wir uns mit der Erstellung von Modellen befassen, beginnend mit dem Naive Bayes-Algorithmus und unter Verwendung der Datei adult.pkl, um die Entwicklung fortzusetzen.
Bücher, die ich empfehle
1. Praktische Statistik für Datenwissenschaftler
2. Einführung in die Datenverarbeitung mit Python
3. 2041: Wie künstliche Intelligenz Ihr Leben in den nächsten Jahrzehnten verändern wird
4. Intensiver Python-Kurs
5. Algorithmen verstehen. Ein illustrierter Leitfaden für Programmierer und andere Neugierige
6. Künstliche Intelligenz – Kai-Fu Lee
7. Einführung in die künstliche Intelligenz – ein nicht-technischer Ansatz – Tom Taulli
Neue Kindles
Ich habe die neuen Kindles, die dieses Jahr auf den Markt kamen, detailliert analysiert und ihre wichtigsten Innovationen und Vorteile für digitale Leser hervorgehoben. Den vollständigen Text finden Sie unter folgendem Link: Die faszinierende Welt des digitalen Lesens: Vorteile eines Kindle.
Amazon Prime
Der Beitritt zu Amazon Prime bietet eine Reihe von Vorteilen, darunter unbegrenzten Zugriff auf Tausende von Filmen, Serien und Musik sowie kostenlosen Versand für Millionen von Produkten mit schneller Lieferung. Mitglieder genießen außerdem exklusive Angebote, frühen Zugang zu Werbeaktionen und Vorteile bei Diensten wie Prime Video, Prime Music und Prime Reading, was das Einkaufs- und Unterhaltungserlebnis viel bequemer und reichhaltiger macht.
Bei Interesse nutzen Sie den folgenden Link: AMAZON PRIME, der mir hilft, künstliche Intelligenz und Computerprogrammierung weiterhin zu fördern.
Das obige ist der detaillierte Inhalt vonErfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Die Flexibilität von Python spiegelt sich in Multi-Paradigm-Unterstützung und dynamischen Typsystemen wider, während eine einfache Syntax und eine reichhaltige Standardbibliothek stammt. 1. Flexibilität: Unterstützt objektorientierte, funktionale und prozedurale Programmierung und dynamische Typsysteme verbessern die Entwicklungseffizienz. 2. Benutzerfreundlichkeit: Die Grammatik liegt nahe an der natürlichen Sprache, die Standardbibliothek deckt eine breite Palette von Funktionen ab und vereinfacht den Entwicklungsprozess.

Python ist für seine Einfachheit und Kraft sehr beliebt, geeignet für alle Anforderungen von Anfängern bis hin zu fortgeschrittenen Entwicklern. Seine Vielseitigkeit spiegelt sich in: 1) leicht zu erlernen und benutzten, einfachen Syntax; 2) Reiche Bibliotheken und Frameworks wie Numpy, Pandas usw.; 3) plattformübergreifende Unterstützung, die auf einer Vielzahl von Betriebssystemen betrieben werden kann; 4) Geeignet für Skript- und Automatisierungsaufgaben zur Verbesserung der Arbeitseffizienz.

Ja, lernen Sie Python in zwei Stunden am Tag. 1. Entwickeln Sie einen angemessenen Studienplan, 2. Wählen Sie die richtigen Lernressourcen aus, 3. Konsolidieren Sie das durch die Praxis erlernte Wissen. Diese Schritte können Ihnen helfen, Python in kurzer Zeit zu meistern.

Python eignet sich für eine schnelle Entwicklung und Datenverarbeitung, während C für hohe Leistung und zugrunde liegende Kontrolle geeignet ist. 1) Python ist einfach zu bedienen, mit prägnanter Syntax, und eignet sich für Datenwissenschaft und Webentwicklung. 2) C hat eine hohe Leistung und eine genaue Kontrolle und wird häufig bei der Programmierung von Spielen und Systemen verwendet.

Die Zeit, die zum Erlernen von Python erforderlich ist, variiert von Person zu Person, hauptsächlich von früheren Programmiererfahrungen, Lernmotivation, Lernressourcen und -methoden und Lernrhythmus. Setzen Sie realistische Lernziele und lernen Sie durch praktische Projekte am besten.

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

Python zeichnet sich in Gaming und GUI -Entwicklung aus. 1) Spielentwicklung verwendet Pygame, die Zeichnungen, Audio- und andere Funktionen bereitstellt, die für die Erstellung von 2D -Spielen geeignet sind. 2) Die GUI -Entwicklung kann Tkinter oder Pyqt auswählen. Tkinter ist einfach und einfach zu bedienen. PYQT hat reichhaltige Funktionen und ist für die berufliche Entwicklung geeignet.


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Sicherer Prüfungsbrowser
Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

Herunterladen der Mac-Version des Atom-Editors
Der beliebteste Open-Source-Editor

MinGW – Minimalistisches GNU für Windows
Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Dreamweaver CS6
Visuelle Webentwicklungstools