Heim  >  Artikel  >  Was ist Data Mining?

Was ist Data Mining?

青灯夜游
青灯夜游Original
2020-07-16 11:54:148833Durchsuche

Data Mining bezeichnet den Prozess der Suche nach Informationen, die in großen Datenmengen durch Algorithmen verborgen sind. Data Mining bezieht sich in der Regel auf die Informatik und nutzt viele Methoden wie Statistik, Online-Analyseverarbeitung, Informationsabruf, maschinelles Lernen, Expertensysteme (basierend auf früheren Faustregeln) und Mustererkennung, um das Ziel der Suche nach verborgenen Informationen im Großen und Ganzen zu erreichen Datenmengen.

Was ist Data Mining?

Data Mining ist ein heißes Thema im Bereich der künstlichen Intelligenz und Datenbankforschung. Unter dem sogenannten Data Mining versteht man das Aufdecken verborgener und bisher unbekannter Informationen aus einem große Datenmenge in der Datenbank und potenziell wertvolle Informationen.

Data Mining ist ein Entscheidungsunterstützungsprozess, der hauptsächlich auf künstlicher Intelligenz, maschinellem Lernen, Mustererkennung, Statistiken, Datenbanken, Visualisierungstechnologie usw. basiert. Es analysiert Unternehmensdaten auf hochautomatisierte Weise und zieht induktive Schlussfolgerungen . Entdecken Sie daraus potenzielle Muster, um Entscheidungsträgern dabei zu helfen, Marktstrategien anzupassen, Risiken zu reduzieren und richtige Entscheidungen zu treffen.

Der Wissensfindungsprozess besteht aus den folgenden drei Phasen: ① Datenvorbereitung; ② Ergebnisausdruck und Interpretation. Data Mining kann mit Benutzern oder Wissensdatenbanken interagieren.

Data-Mining-Objekte

Die Art der Daten kann strukturiert, halbstrukturiert oder sogar heterogen sein. Methoden zur Wissensgewinnung können mathematisch, nichtmathematisch oder induktiv sein. Das letztendlich gewonnene Wissen kann für das Informationsmanagement, die Abfrageoptimierung, die Entscheidungsunterstützung und die Pflege der Daten selbst genutzt werden. [4]

Der Gegenstand des Data Mining kann jede Art von Datenquelle sein. Es kann sich um eine relationale Datenbank handeln, bei der es sich um eine Datenquelle handelt, die strukturierte Daten enthält. Es kann sich aber auch um ein Data Warehouse, Text, Multimediadaten, räumliche Daten, Zeitreihendaten und Webdaten handeln, bei denen es sich um eine Datenquelle handelt, die semi-basierte Daten enthält. strukturierte Daten oder sogar heterogene Daten. [4]

Die Methode zur Wissensgewinnung kann numerisch, nicht numerisch oder induktiv sein. Das letztendlich gewonnene Wissen kann für das Informationsmanagement, die Abfrageoptimierung, die Entscheidungsunterstützung und die Pflege der Daten selbst genutzt werden.

Data Mining-Schritte

Vor der Implementierung von Data Mining ist es notwendig, zu formulieren, welche Schritte unternommen werden sollen, was bei jedem Schritt zu tun ist und welche Ziele erreicht werden müssen Nur mit einem guten Plan lässt sich Data Mining geordnet umsetzen und zum Erfolg führen. Viele Softwareanbieter und Data-Mining-Beratungsunternehmen bieten einige Data-Mining-Prozessmodelle an, um ihre Benutzer Schritt für Schritt bei der Data-Mining-Arbeit anzuleiten. Zum Beispiel 5A von SPSS und SEMMA von SAS.

Die Schritte des Data-Mining-Prozessmodells umfassen hauptsächlich die Definition von Problemen, die Einrichtung von Data-Mining-Bibliotheken, die Analyse von Daten, die Datenaufbereitung, den Aufbau von Modellen, die Bewertung von Modellen und die Implementierung. Schauen wir uns den spezifischen Inhalt jedes Schritts genauer an:

(1) Definieren Sie das Problem. Die erste und wichtigste Voraussetzung vor Beginn der Wissensermittlung besteht darin, das Daten- und Geschäftsproblem zu verstehen. Sie müssen Ihre Ziele klar definieren, also entscheiden, was Sie tun möchten. Wenn Sie beispielsweise die Auslastungsrate Ihrer E-Mails verbessern möchten, möchten Sie möglicherweise „die Benutzerauslastungsrate erhöhen“ oder „den Wert einer Benutzernutzung erhöhen“. sind fast völlig unterschiedlich, es muss eine Entscheidung getroffen werden.

(2) Richten Sie eine Data-Mining-Bibliothek ein. Der Aufbau einer Data-Mining-Bibliothek umfasst die folgenden Schritte: Datenerfassung, Datenbeschreibung, Auswahl, Bewertung der Datenqualität und Datenbereinigung, Zusammenführung und Integration, Erstellen von Metadaten, Laden der Data-Mining-Bibliothek und Pflege der Data-Mining-Bibliothek.

(3) Daten analysieren. Der Zweck der Analyse besteht darin, die Datenfelder zu finden, die den größten Einfluss auf die Prognoseausgabe haben, und zu bestimmen, ob Exportfelder definiert werden müssen. Wenn der Datensatz Hunderte oder Tausende von Feldern enthält, ist das Durchsuchen und Analysieren der Daten eine sehr zeitaufwändige und ermüdende Aufgabe. In diesem Fall müssen Sie eine Tool-Software mit einer guten Benutzeroberfläche und leistungsstarken Funktionen auswählen, die Sie dabei unterstützen Erledigung dieser Aufgaben.

(4) Daten vorbereiten. Dies ist der letzte Schritt der Datenvorbereitung vor der Erstellung des Modells. Dieser Schritt kann in vier Teile unterteilt werden: Variablen auswählen, Datensätze auswählen, neue Variablen erstellen und Variablen konvertieren.

(5) Erstellen Sie das Modell. Der Aufbau eines Modells ist ein iterativer Prozess. Verschiedene Modelle müssen sorgfältig untersucht werden, um festzustellen, welches Modell für das jeweilige Geschäftsproblem am nützlichsten ist. Verwenden Sie zunächst einen Teil der Daten, um ein Modell zu erstellen, und verwenden Sie dann die verbleibenden Daten, um das resultierende Modell zu testen und zu validieren. Manchmal gibt es einen dritten Datensatz, den sogenannten Validierungssatz, da der Testsatz durch die Eigenschaften des Modells beeinflusst werden kann und ein unabhängiger Datensatz erforderlich ist, um die Genauigkeit des Modells zu überprüfen. Das Trainieren und Testen von Data-Mining-Modellen erfordert die Aufteilung der Daten in mindestens zwei Teile, einen für das Modelltraining und einen für Modelltests.

(6) Bewertungsmodell. Nachdem das Modell etabliert ist, müssen die erzielten Ergebnisse bewertet und der Wert des Modells erläutert werden. Die aus dem Testsatz erhaltene Genauigkeit ist nur für die Daten aussagekräftig, die zum Erstellen des Modells verwendet werden. In praktischen Anwendungen ist es notwendig, die Arten von Fehlern und die damit verbundenen Kosten, die sie verursachen, besser zu verstehen. Die Erfahrung hat gezeigt, dass ein gültiges Modell nicht unbedingt ein korrektes Modell ist. Der direkte Grund dafür sind die verschiedenen Annahmen, die bei der Modellbildung implizit sind. Daher ist es wichtig, das Modell direkt in der realen Welt zu testen. Wenden Sie es zunächst auf einen kleinen Bereich an, erhalten Sie Testdaten und übertragen Sie es dann auf einen großen Bereich, wenn Sie zufrieden sind.

(7) Umsetzung. Sobald ein Modell erstellt und validiert ist, kann es im Wesentlichen auf zwei Arten verwendet werden. Die erste besteht darin, den Analysten eine Referenz zu liefern; die andere besteht darin, dieses Modell auf verschiedene Datensätze anzuwenden.

Weitere Informationen zu diesem Thema finden Sie unter: PHP-Website für Chinesisch!

Das obige ist der detaillierte Inhalt vonWas ist Data Mining?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn