Erfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Erfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen

DDD

Oct 30, 2024 am 10:57 AM

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Zusammenfassung

In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und diese Aufteilung in einer .pkl-Datei speichern, was für das organisierte Training und die Bewertung von Modellen für maschinelles Lernen unerlässlich ist. Der Prozess nutzt die Bibliotheken sklearn und pickle, sodass Sie die verarbeiteten Daten in zukünftigen Projekten wiederverwenden können. Dieser Artikel ist der nächste Schritt in einer Reihe von Tutorials zur Datenvorverarbeitung.

Behandelte Hauptthemen:

Notebook-Vorbereitung auf Google Colab
Aufteilung des Datensatzes in Trainings- und Testdaten
Detaillierte Erklärung des Python-Codes für die Division
Speichern der Aufteilung mit Pickle in einer .pkl-Datei
Vorteile der Speicherung verarbeiteter Daten für die zukünftige Verwendung

Wichtig: Um diesem Artikel zu folgen, lesen Sie zunächst die folgenden Artikel in der vorgeschlagenen Reihenfolge. Jeder Artikel bietet die Grundlage, die Sie zum Verständnis des nächsten Artikels benötigen, und stellt sicher, dass Sie den gesamten Arbeitsablauf bis zu diesem Punkt verstehen.

Artikel 1: Anwendung von maschinellem Lernen: Ein Leitfaden für den Einstieg als Modelle in der Klassifizierung

Artikel 2:Erforschung der Klassifizierung im maschinellen Lernen: Arten von Variablen

Artikel 3: Entdecken Sie Google Colab: Ihr Verbündeter für die Codierung von Modellen für maschinelles Lernen

Artikel 4:Erkunden von Daten mit Python auf Google Colab: Ein praktischer Leitfaden zur Verwendung des adult.csv-Datensatzes

Artikel 5: Entmystifizierung von Prädiktoren und Klasseneinteilung sowie der Handhabung kategorialer Attribute mit LabelEncoder und OneHotEncoder

Artikel 6:Datenskalierung: Die Grundlage für effiziente Modelle

Einführung

In diesem Artikel erfahren Sie, wie Sie einen Datensatz in Training und Test unterteilen und diese Aufteilung in einer .pkl-Datei speichern. Dieser Prozess ist wichtig, um eine saubere Trennung zwischen den Daten, die zum Trainieren des Modells verwendet werden, und denen, die zur Bewertung seiner Leistung verwendet werden, sicherzustellen.

Starten Sie den Vorgang in Google Colab

Zunächst greifen Sie auf diesen Notizbuch-Link zu und wählen Sie Datei > Speichern Sie eine Kopie auf Drive. Denken Sie daran, dass der Datensatz (adult.csv) bei jedem neuen Beitrag erneut geladen werden muss (weitere Informationen finden Sie in Artikel 4 oben), da jedes Tutorial ein neues Notizbuch erstellt und nur den in diesem Artikel vorgestellten erforderlichen Code hinzufügt, das Notizbuch jedoch mit Der gesamte bisher generierte Code. Eine Kopie des Notizbuchs wird auf Google Drive im Colab Notebooks-Ordner gespeichert, um den Prozess organisiert und kontinuierlich zu halten.

Warum den Datensatz in Training und Test aufteilen?

Das Aufteilen des Datensatzes ist ein grundlegender Schritt in jedem maschinellen Lernprojekt, da es dem Modell ermöglicht, aus einem Teil der Daten zu „lernen“ (Training) und dann anhand neuer, noch nie dagewesener Daten ausgewertet zu werden (Testen). Diese Vorgehensweise ist wichtig, um die Verallgemeinerung des Modells zu messen. Um die Überwachung zu erleichtern, verwenden wir die folgenden Variablen:

X_adult_treinamento: Prädiktorvariablen trainieren
X_adult_teste: Prädiktorvariablen testen
y_adult_treinamento: Trainingszielvariable
y_adult_teste: Zielvariable testen

Python-Code zum Aufteilen des Datensatzes

Unten finden Sie den Python-Code zur Durchführung der Aufteilung zwischen Trainings- und Testdaten:

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

Die Abbildung unten zeigt den vorherigen Code mit seinen Ausgaben nach der Ausführung.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Erläuterung des Kodex:

train_test_split: Funktion aus der Sklearn-Bibliothek, die den Datensatz aufteilt.
test_size=0.2: Gibt an, dass 20 % der Daten für Tests und die restlichen 80 % für das Training reserviert werden.
random_state=0: Stellt sicher, dass die Division immer gleich ist und generiert konsistente Ergebnisse für jeden Lauf.
Form:Überprüft die Form der Daten nach der Aufteilung, um zu bestätigen, dass die Aufteilung korrekt erfolgt ist.

Speichern der Teilung in einer .pkl-Datei

Um die Arbeit zu erleichtern und die Konsistenz zwischen verschiedenen Läufen sicherzustellen, speichern wir die Trainings- und Testvariablen in einer .pkl-Datei. Dadurch ist es möglich, die Daten bei Bedarf wiederzuverwenden, ohne die Aufteilung erneut durchführen zu müssen.

Code zum Speichern von Variablen mit pickle:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

Um die Datei adult.pkl auf dem Notizbuch anzuzeigen, klicken Sie einfach auf das Ordnersymbol auf der linken Seite, wie in der Abbildung unten gezeigt.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Erläuterung des Kodex:

pickle: Python-Bibliothek zur Serialisierung von Objekten, sodass Sie komplexe Variablen in Dateien speichern können.
dump: Speichert die Variablen in einer Datei namens adult.pkl. Diese Datei wird in Zukunft gelesen, um den in Training und Test unterteilten Datensatz zu laden und so den Arbeitsablauf zu optimieren.

Abschluss

In diesem Artikel haben Sie erfahren, wie Sie einen Datensatz in Trainings- und Testdaten aufteilen und in einer .pkl-Datei speichern. Dieser Prozess ist in maschinellen Lernprojekten von grundlegender Bedeutung und gewährleistet eine organisierte und effiziente Struktur. Im nächsten Artikel werden wir uns mit der Erstellung von Modellen befassen, beginnend mit dem Naive Bayes-Algorithmus und unter Verwendung der Datei adult.pkl, um die Entwicklung fortzusetzen.

Bücher, die ich empfehle

1. Praktische Statistik für Datenwissenschaftler
2. Einführung in die Datenverarbeitung mit Python
3. 2041: Wie künstliche Intelligenz Ihr Leben in den nächsten Jahrzehnten verändern wird
4. Intensiver Python-Kurs
5. Algorithmen verstehen. Ein illustrierter Leitfaden für Programmierer und andere Neugierige
6. Künstliche Intelligenz – Kai-Fu Lee
7. Einführung in die künstliche Intelligenz – ein nicht-technischer Ansatz – Tom Taulli

Neue Kindles

Ich habe die neuen Kindles, die dieses Jahr auf den Markt kamen, detailliert analysiert und ihre wichtigsten Innovationen und Vorteile für digitale Leser hervorgehoben. Den vollständigen Text finden Sie unter folgendem Link: Die faszinierende Welt des digitalen Lesens: Vorteile eines Kindle.

Amazon Prime

Der Beitritt zu Amazon Prime bietet eine Reihe von Vorteilen, darunter unbegrenzten Zugriff auf Tausende von Filmen, Serien und Musik sowie kostenlosen Versand für Millionen von Produkten mit schneller Lieferung. Mitglieder genießen außerdem exklusive Angebote, frühen Zugang zu Werbeaktionen und Vorteile bei Diensten wie Prime Video, Prime Music und Prime Reading, was das Einkaufs- und Unterhaltungserlebnis viel bequemer und reichhaltiger macht.

Bei Interesse nutzen Sie den folgenden Link: AMAZON PRIME, der mir hilft, künstliche Intelligenz und Computerprogrammierung weiterhin zu fördern.

Das obige ist der detaillierte Inhalt vonErfahren Sie, wie Sie mit Python Trainings- und Testdaten aus einem Datensatz aufteilen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Verwandter Artikel

Der Hauptzweck von Python: Flexibilität und BenutzerfreundlichkeitApr 17, 2025 am 12:14 AM

Die Flexibilität von Python spiegelt sich in Multi-Paradigm-Unterstützung und dynamischen Typsystemen wider, während eine einfache Syntax und eine reichhaltige Standardbibliothek stammt. 1. Flexibilität: Unterstützt objektorientierte, funktionale und prozedurale Programmierung und dynamische Typsysteme verbessern die Entwicklungseffizienz. 2. Benutzerfreundlichkeit: Die Grammatik liegt nahe an der natürlichen Sprache, die Standardbibliothek deckt eine breite Palette von Funktionen ab und vereinfacht den Entwicklungsprozess.

Python: Die Kraft der vielseitigen ProgrammierungApr 17, 2025 am 12:09 AM

Python ist für seine Einfachheit und Kraft sehr beliebt, geeignet für alle Anforderungen von Anfängern bis hin zu fortgeschrittenen Entwicklern. Seine Vielseitigkeit spiegelt sich in: 1) leicht zu erlernen und benutzten, einfachen Syntax; 2) Reiche Bibliotheken und Frameworks wie Numpy, Pandas usw.; 3) plattformübergreifende Unterstützung, die auf einer Vielzahl von Betriebssystemen betrieben werden kann; 4) Geeignet für Skript- und Automatisierungsaufgaben zur Verbesserung der Arbeitseffizienz.

Python in 2 Stunden am Tag lernen: Ein praktischer LeitfadenApr 17, 2025 am 12:05 AM

Ja, lernen Sie Python in zwei Stunden am Tag. 1. Entwickeln Sie einen angemessenen Studienplan, 2. Wählen Sie die richtigen Lernressourcen aus, 3. Konsolidieren Sie das durch die Praxis erlernte Wissen. Diese Schritte können Ihnen helfen, Python in kurzer Zeit zu meistern.

Python gegen C: Vor- und Nachteile für EntwicklerApr 17, 2025 am 12:04 AM

Python eignet sich für eine schnelle Entwicklung und Datenverarbeitung, während C für hohe Leistung und zugrunde liegende Kontrolle geeignet ist. 1) Python ist einfach zu bedienen, mit prägnanter Syntax, und eignet sich für Datenwissenschaft und Webentwicklung. 2) C hat eine hohe Leistung und eine genaue Kontrolle und wird häufig bei der Programmierung von Spielen und Systemen verwendet.

Python: zeitliches Engagement und LerntempoApr 17, 2025 am 12:03 AM

Die Zeit, die zum Erlernen von Python erforderlich ist, variiert von Person zu Person, hauptsächlich von früheren Programmiererfahrungen, Lernmotivation, Lernressourcen und -methoden und Lernrhythmus. Setzen Sie realistische Lernziele und lernen Sie durch praktische Projekte am besten.

Python: Automatisierung, Skript- und AufgabenverwaltungApr 16, 2025 am 12:14 AM

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

Python und Zeit: Machen Sie das Beste aus Ihrer StudienzeitApr 14, 2025 am 12:02 AM

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

Python: Spiele, GUIs und mehrApr 13, 2025 am 12:14 AM

Python zeichnet sich in Gaming und GUI -Entwicklung aus. 1) Spielentwicklung verwendet Pygame, die Zeichnungen, Audio- und andere Funktionen bereitstellt, die für die Erstellung von 2D -Spielen geeignet sind. 2) Die GUI -Entwicklung kann Tkinter oder Pyqt auswählen. Tkinter ist einfach und einfach zu bedienen. PYQT hat reichhaltige Funktionen und ist für die berufliche Entwicklung geeignet.

See all articles

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vorByDDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

Sicherer Prüfungsbrowser

Safe Exam Browser ist eine sichere Browserumgebung für die sichere Teilnahme an Online-Prüfungen. Diese Software verwandelt jeden Computer in einen sicheren Arbeitsplatz. Es kontrolliert den Zugriff auf alle Dienstprogramme und verhindert, dass Schüler nicht autorisierte Ressourcen nutzen.

Herunterladen der Mac-Version des Atom-Editors

Der beliebteste Open-Source-Editor

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

Dreamweaver CS6

Visuelle Webentwicklungstools

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7533

CakePHP-Tutorial

1379

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten