Die grundlegenden Schritte des Data Mining sind: 1. Definieren Sie das Problem. 2. Erstellen Sie eine Data Mining-Bibliothek. 4. Erstellen Sie das Modell. Implementieren.
Die Betriebsumgebung dieses Artikels: Windows 10-System, Thinkpad T480-Computer.
Die konkreten Schritte sind wie folgt:
1. Definieren Sie das Problem
Die erste und wichtigste Voraussetzung vor Beginn der Wissensermittlung besteht darin, die Daten- und Geschäftsprobleme zu verstehen. Sie müssen Ihre Ziele klar und deutlich definieren, also entscheiden, was Sie tun möchten. Wenn Sie beispielsweise die Auslastungsrate Ihrer E-Mails verbessern möchten, möchten Sie möglicherweise „die Benutzerauslastungsrate erhöhen“ oder „den Wert einer Benutzernutzung erhöhen“. sind fast völlig unterschiedlich, es muss eine Entscheidung getroffen werden.
2. Erstellen einer Data-Mining-Bibliothek
Der Aufbau einer Data-Mining-Bibliothek umfasst die folgenden Schritte: Datenerfassung, Datenbeschreibung, Auswahl, Datenqualitätsbewertung und Datenbereinigung, Zusammenführung und Integration, Erstellen von Metadaten, Laden der Data-Mining-Bibliothek und Pflege Data-Mining-Bibliothek.
3. Daten analysieren
Der Zweck der Analyse besteht darin, die Datenfelder zu finden, die den größten Einfluss auf die Vorhersageausgabe haben, und zu entscheiden, ob Exportfelder definiert werden müssen. Wenn der Datensatz Hunderte oder Tausende von Feldern enthält, ist das Durchsuchen und Analysieren der Daten eine sehr zeitaufwändige und ermüdende Aufgabe. In diesem Fall müssen Sie eine Tool-Software mit einer guten Benutzeroberfläche und leistungsstarken Funktionen auswählen, die Sie dabei unterstützen Erledigung dieser Aufgaben.
4. Daten vorbereiten
Dies ist der letzte Schritt der Datenvorbereitung vor dem Erstellen des Modells. Dieser Schritt kann in vier Teile unterteilt werden: Variablen auswählen, Datensätze auswählen, neue Variablen erstellen und Variablen konvertieren.
5. Ein Modell erstellen
Der Aufbau eines Modells ist ein iterativer Prozess. Verschiedene Modelle müssen sorgfältig untersucht werden, um festzustellen, welches Modell für das jeweilige Geschäftsproblem am nützlichsten ist. Verwenden Sie zunächst einen Teil der Daten, um ein Modell zu erstellen, und verwenden Sie dann die verbleibenden Daten, um das resultierende Modell zu testen und zu validieren. Manchmal gibt es einen dritten Datensatz, den sogenannten Validierungssatz, da der Testsatz möglicherweise von den Eigenschaften des Modells beeinflusst wird und ein unabhängiger Datensatz erforderlich ist, um die Genauigkeit des Modells zu überprüfen. Zum Trainieren und Testen von Data-Mining-Modellen müssen die Daten in mindestens zwei Teile aufgeteilt werden, einen für das Modelltraining und einen für Modelltests.
6. Bewerten Sie das Modell
Nachdem das Modell erstellt wurde, müssen die erzielten Ergebnisse bewertet und der Wert des Modells erläutert werden. Die aus dem Testsatz erhaltene Genauigkeit ist nur für die Daten aussagekräftig, die zum Erstellen des Modells verwendet werden. In praktischen Anwendungen ist es notwendig, die Arten von Fehlern und die damit verbundenen Kosten, die sie verursachen, besser zu verstehen. Die Erfahrung hat gezeigt, dass ein gültiges Modell nicht unbedingt ein korrektes Modell ist. Der direkte Grund dafür sind die verschiedenen Annahmen, die bei der Modellbildung impliziert sind. Daher ist es wichtig, das Modell direkt in der realen Welt zu testen. Wenden Sie es zunächst auf einen kleinen Bereich an, erhalten Sie Testdaten und fördern Sie es dann auf einen großen Bereich, wenn Sie zufrieden sind.
7. Implementierung
Nachdem das Modell etabliert und verifiziert ist, gibt es zwei Hauptmöglichkeiten, es zu verwenden. Die erste Möglichkeit besteht darin, den Analysten eine Referenz bereitzustellen. Die andere besteht darin, dieses Modell auf verschiedene Datensätze anzuwenden.
Kostenloses Teilen von Lernvideos: Einführung in die Programmierung
Das obige ist der detaillierte Inhalt vonWas sind die grundlegenden Schritte des Data Mining?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!