Heim >Technologie-Peripheriegeräte >KI >Unkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen
Ein Versuch, sicherzustellen, dass Modelle für maschinelles Lernen in unbekannten Umgebungen verallgemeinert werden, besteht darin, die Daten aufzuteilen. Dies kann auf verschiedene Weise erreicht werden, von 3-Wege-Aufteilungen (Training, Test, Bewertung) bis hin zu kreuzvalidierten K-Aufteilungen. Das Grundprinzip besteht darin, dass Sie durch das Trainieren eines Modells für maschinelles Lernen anhand einer Teilmenge von Daten und dessen Auswertung anhand unbekannter Daten besser abschätzen können, ob das Modell während des Trainings unzureichend oder übermäßig angepasst war.
Für die meisten Arbeiten reicht ein einfaches 3-Wege-Werkzeug aus. In der realen Produktion erfordern Aufteilungsmethoden häufig komplexere Methoden, um Generalisierungsprobleme sicherzustellen. Diese Aufteilungen sind komplexer, da sie aus tatsächlichen Daten abgeleitet werden und nicht aus den Datenstrukturen, auf denen gewöhnliche Aufteilungsmethoden basieren. In diesem Artikel wird versucht, einige unkonventionelle Methoden zur Aufteilung von Daten in der Entwicklung maschinellen Lernens und die Gründe dafür zu erläutern.
Der Einfachheit halber verwenden wir ein Tabellenformat, um einen einfachen multivariaten Zeitreihendatensatz darzustellen. Die Daten bestehen aus 3 numerischen Merkmalen, 1 kategorialem Merkmal und 1 Zeitstempelmerkmal. Hier ist die Visualisierung:
Diese Art von Datensatz ist in vielen Anwendungsfällen und Branchen für maschinelles Lernen üblich. Ein konkretes Beispiel sind zeitgestreamte Daten, die von mehreren Sensoren in einer Fabrikhalle übertragen werden. Die kategoriale Variable ist die ID der Maschine, das numerische Merkmal sind die Informationen, die der Sensor aufzeichnet (z. B. Druck, Temperatur usw.), und der Zeitstempel ist der Zeitpunkt, zu dem die Daten übertragen und in der Datenbank aufgezeichnet wurden.
Angenommen, Sie haben diesen Datensatz in Form einer CSV-Datei von der Datenentwicklungsabteilung erhalten und wurden mit der Erstellung eines Klassifizierungs- oder Regressionsmodells beauftragt. In diesem Fall kann die Beschriftung ein beliebiges Feature oder eine zusätzliche Spalte sein. Als Erstes müssen die Daten in sinnvolle Teilmengen aufgeteilt werden.
Der Einfachheit halber können Sie einfach in Trainingssatz und Testsatz aufteilen. Da taucht sofort das Problem auf: Eine einfache Aufteilung der Daten funktioniert hier nicht: Die Daten bestehen aus mehreren zeitlich indizierten Sensordatenströmen. Wie kann man also die Daten so aufteilen, dass die Reihenfolge erhalten bleibt und das nachfolgende Modell des maschinellen Lernens gut verallgemeinert werden kann? (z. B. Visualisierung der Daten für jede Maschine). Dies führt zu folgenden Ergebnissen:
Horizontale AufteilungDurch die Gruppierung wird das Problem der Aufteilung etwas einfacher, und vieles hängt von Ihren Annahmen ab. Sie fragen sich vielleicht: Wie lässt sich ein auf einer Gruppe trainiertes Modell für maschinelles Lernen auf andere Gruppen verallgemeinern, d Im Folgenden finden Sie eine Visualisierung dieser Aufteilung:
Die obige Aufteilungsmethode nenne ich horizontale Aufteilung. In den meisten Bibliotheken für maschinelles Lernen lässt sich diese Aufteilung leicht durch einfaches Gruppieren nach kategorialen Merkmalen und Partitionieren entlang der Kategorien erreichen. Durch das Training mit dieser Aufteilung hat das Modell Informationen gesammelt, die sich über unbekannte Gruppierungen hinweg verallgemeinern lassen.Es ist erwähnenswert, dass die Aufteilung nicht die Zeit als Grundlage für die Aufteilung selbst nutzt. Es kann jedoch davon ausgegangen werden, dass Sie auch jeden Zeitstrom nach Zeitreihenfolge aufteilen, um diese Beziehung in den Daten beizubehalten. Dies bringt uns zur nächsten Aufteilung.
Vertikale Aufteilung
Aber was ist, wenn Sie die Zeit selbst umfassen möchten? Bei den meisten Zeitreihenmodellen sind die üblichen Methoden zur Aufteilung der Daten Vergangenheit und Zukunft. Das heißt, die historischen Daten des Trainingssatzes werden mit den Daten des Bewertungssatzes verglichen. Die Hypothese in diesem Fall lautet: Wie verallgemeinert sich ein auf jeder Gruppe historischer Daten trainiertes Modell für maschinelles Lernen auf jede Gruppe zukünftiger Daten? Diese Frage kann durch eine sogenannte vertikale Aufteilung beantwortet werden:
Diese Aufteilung ist ein erfolgreiches Training wird zeigen, dass das Modell in der Lage ist, Muster im beobachteten Zeitstrom zu extrahieren und genaue Vorhersagen über zukünftiges Verhalten zu treffen. Dies allein bedeutet jedoch nicht, dass sich das Modell gut auf andere zeitliche Ströme aus verschiedenen Gruppen verallgemeinern lässt.Natürlich müssen eure mehrfachen Zeitströme jetzt einzeln sortiert werden, also müssen wir sie noch gruppieren. Aber dieses Mal ziehen wir, anstatt Gruppen zu kreuzen, Stichproben aus jeder Gruppe in der Vergangenheit, setzen sie in Bewegung und bewerten die zukünftige Gruppe entsprechend. In diesem idealisierten Beispiel haben alle Zeitströme die gleiche Länge, d. h. jeder Zeitstrom hat genau die gleiche Anzahl an Datenpunkten. In der realen Welt ist dies jedoch möglicherweise nicht der Fall. Sie benötigen daher ein System, um jede Gruppe für die Aufteilung zu indizieren.
Sie fragen sich vielleicht, ob sie ein Modell generieren können, das sich unter den Einschränkungen sowohl der horizontalen als auch der vertikalen Aufteilung gut verallgemeinern lässt? In diesem Fall wäre die Hypothese: Wie verallgemeinert sich ein auf einigen Gruppen historischer Daten trainiertes maschinelles Lernmodell auf zukünftige Daten dieser Gruppen und auf alle Daten anderer Gruppen? Eine Visualisierung dieser hybriden Aufteilung würde so aussehen:
Wenn das Modelltraining erfolgreich ist, ist dieses Modell natürlich in der realen Welt definitiv robuster als andere Modelle. Es kann nicht nur nachweisen, dass es Lernmuster für einige Gruppen gesehen hat, sondern auch, dass es Informationen erworben hat, die sich über Gruppen hinweg verallgemeinern lassen. Dies könnte nützlich sein, wenn wir der Fabrik in Zukunft weitere ähnliche Maschinen hinzufügen würden.
Das Konzept der horizontalen und vertikalen Aufteilung kann auf viele Dimensionen verallgemeinert werden. Beispielsweise möchten Sie möglicherweise auf der Grundlage von zwei kategorialen Merkmalen statt einem gruppieren, um Untergruppen in Ihren Daten weiter zu isolieren und sie nach Untergruppen zu sortieren. Möglicherweise gibt es in der Mitte auch eine komplexe Logik zum Filtern nach Gruppen mit kleinen Stichprobengrößen sowie andere Logik auf Geschäftsebene im Zusammenhang mit der Domäne.
Dieses hypothetische Beispiel dient dazu, die endlosen Möglichkeiten der verschiedenen maschinellen Lernaufteilungen zu veranschaulichen, die erstellt werden können. So wie es wichtig ist, bei der Bewertung von Modellen für Fairness beim maschinellen Lernen zu sorgen, ist es ebenso wichtig, genügend Zeit damit zu verbringen, über die Partitionierung Ihres Datensatzes und ihre Konsequenzen für die Verzerrung nachgelagerter Modelle nachzudenken.
Das obige ist der detaillierte Inhalt vonUnkonventionelle Aufteilungstechniken für Zeitreihen-Datensätze für maschinelles Lernen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!