Heim > Artikel > Technologie-Peripheriegeräte > Datenaufteilungstechniken und Fallstricke – Verwendung von Trainingssatz, Validierungssatz und Testsatz
Um zuverlässige Modelle für maschinelles Lernen zu erstellen, ist die Aufteilung von Datensätzen unerlässlich. Der Aufteilungsprozess umfasst die Aufteilung des Datensatzes in Trainings-, Validierungs- und Testsätze. Ziel dieses Artikels ist es, die Konzepte dieser drei Sammlungen, Datenaufteilungstechniken und Fallstricke, die leicht auftreten können, im Detail vorzustellen.
Trainingsset
Ein Trainingsset ist ein Datensatz, der zum Trainieren verwendet wird und es dem Modell ermöglicht, versteckte Merkmale/Muster in den Daten zu lernen.
In jeder Epoche werden dieselben Trainingsdaten wiederholt in die Architektur des neuronalen Netzwerks eingegeben und das Modell lernt weiterhin die Eigenschaften der Daten.
Der Trainingssatz sollte über vielfältige Eingaben verfügen, damit das Modell in allen Szenarien trainiert wird und mögliche zukünftige Datenproben vorhersagen kann.
Validierungssatz
Der Validierungssatz ist ein vom Trainingssatz getrennter Datensatz, der zur Überprüfung der Modellleistung während des Trainings verwendet wird.
Dieser Validierungsprozess liefert Informationen, die dabei helfen, die Hyperparameter und die Konfiguration des Modells zu optimieren. Das Modell wird auf dem Trainingssatz trainiert, während das Modell nach jeder Epoche auf dem Validierungssatz bewertet wird.
Der Hauptzweck der Aufteilung des Datensatzes in einen Validierungssatz besteht darin, eine Überanpassung des Modells zu verhindern. Das heißt, das Modell kann Proben im Trainingssatz sehr gut klassifizieren, kann jedoch unsichtbare Daten nicht verallgemeinern und genau klassifizieren.
Testsatz
Der Testsatz ist ein separater Datensatz, der zum Testen des Modells nach Abschluss des Trainings verwendet wird. Es bietet eine unvoreingenommene endgültige Leistungsmetrik des Modells in Bezug auf Genauigkeit, Präzision usw. Einfach ausgedrückt spiegelt der Testsatz die Leistung des Modells wider.
Das Erstellen verschiedener Stichproben und Aufteilungen im Datensatz hilft dabei, die Leistung des realen Modells zu beurteilen. Die Aufteilungsrate des Datensatzes hängt von der Anzahl der im Datensatz vorhandenen Stichproben und Modelle ab.
Allgemeine Schlussfolgerungen zur Datensatzaufteilung
Wenn mehrere Hyperparameter optimiert werden müssen, erfordert das maschinelle Lernmodell einen größeren Validierungssatz, um die Modellleistung zu optimieren. Wenn das Modell nur wenige oder keine Hyperparameter aufweist, kann es ebenfalls leicht anhand eines kleinen Datensatzes validiert werden.
Wenn der Modellanwendungsfall zu falschen Vorhersagen führt, die die Modellleistung ernsthaft beeinträchtigen, ist es besser, das Modell nach jeder Epoche zu validieren, damit das Modell verschiedene Szenarien lernen kann.
Mit zunehmenden Datendimensionen/-merkmalen nehmen auch die Hyperparameter der neuronalen Netzwerkfunktion zu, wodurch das Modell komplexer wird. In diesen Fällen sollte neben dem Validierungssatz auch eine große Datenmenge im Trainingssatz gespeichert werden.
1. Zufallsstichprobe
Zufallsstichprobe ist die älteste und beliebteste Methode zur Aufteilung eines Datensatzes. Wie der Name schon sagt, wird der Datensatz gemischt und die Stichproben werden zufällig ausgewählt und basierend auf dem vom Benutzer angegebenen Prozentsatz in Trainings-, Validierungs- oder Testsätze eingefügt.
Diese Methode hat jedoch einen offensichtlichen Nachteil. Zufallsstichproben funktionieren am besten bei klassenausgeglichenen Datensätzen, d. h. Datensätzen mit ungefähr der gleichen Anzahl an Stichproben in jeder Datensatzklasse. Bei Datensätzen mit unausgeglichenen Klassen kann diese Methode der Datenaufteilung zu Verzerrungen führen.
2. Stratifizierte Stichprobe
Die geschichtete Stichprobe lindert das Zufallsstichprobenproblem in Datensätzen mit unausgeglichenen Klassenverteilungen. Die Klassenverteilung in jedem Trainings-, Validierungs- und Testsatz kann beibehalten werden. Die geschichtete Stichprobe ist eine gerechtere Methode zur Aufteilung der Daten.
3. Kreuzvalidierung
Kreuzvalidierung oder K-Fold-Kreuzvalidierung ist eine leistungsfähigere Datenaufteilungstechnik, bei der das Modell „K“-mal an verschiedenen Stichproben trainiert und ausgewertet wird.
Setzen Sie Modelle des maschinellen Lernens mithilfe der K-Fold-Kreuzvalidierung verschiedenen Datenverteilungen aus. Bis zu einem gewissen Grad wird die Verzerrung, die bei der Auswahl der Daten in den Trainings- und Validierungssätzen auftreten kann, gemildert. Bei Verwendung des K-Fold-Kreuzvalidierungsschemas werden üblicherweise Mittelwerte und Standardabweichungswerte angegeben.
Daher weist die K-Fold-Kreuzvalidierung auch das gleiche Problem auf wie die Zufallsstichprobe, und die Datenverteilung kann verzerrt sein. Die Schichtung kann verwendet werden, um die Analogie der Daten beizubehalten, während „K“ Teilmengen oder Teile der Daten generiert werden.
1. Verwendung minderwertiger Trainingsdaten
Da maschinelle Lernalgorithmen empfindlich auf Trainingsdaten reagieren, können selbst kleine Änderungen/Fehler im Trainingssatz die Modellleistung erheblich beeinträchtigen ein Fehler ist aufgetreten. Daher ist die Qualität der Trainingsdaten entscheidend für die Verbesserung der Modellleistung.
2. Überanpassung
Überanpassung tritt auf, wenn ein maschinelles Lernmodell unbekannte Daten nicht klassifizieren kann. Rauschen oder Schwankungen in den Trainingsdaten werden als Merkmale behandelt und vom Modell gelernt. Dies führt zu einem Modell, das im Trainingssatz gut, in den Validierungs- und Testsätzen jedoch schlecht abschneidet.
3. Überbetonung der Validierungs- und Testsatzmetriken
Die Validierungssatzmetrik ist die Metrik, die den Modelltrainingspfad bestimmt. Nach jeder Epoche wird das Modell des maschinellen Lernens anhand des Validierungssatzes bewertet. Berechnen Sie basierend auf den Validierungssatzindikatoren den entsprechenden Verlustterm und ändern Sie die Hyperparameter. Metriken sollten so ausgewählt werden, dass sie einen positiven Einfluss auf die Gesamtentwicklung der Modellleistung haben.
Das obige ist der detaillierte Inhalt vonDatenaufteilungstechniken und Fallstricke – Verwendung von Trainingssatz, Validierungssatz und Testsatz. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!