Was ist Data Mining?-häufiges Problem-php.cn

Heim

häufiges Problem

Was ist Data Mining?

青灯夜游

Jul 24, 2020 am 11:53 AM

数据挖掘

Data Mining ist der Prozess der Extraktion unbekannter, aber potenziell nützlicher Informationen, die in großen Datenmengen verborgen sind. Das Ziel des Data Mining besteht darin, ein Entscheidungsmodell zu erstellen, um zukünftiges Verhalten auf der Grundlage vergangener Aktionsdaten vorherzusagen.

Was ist Data Mining?

Data Mining bezeichnet den Prozess der Suche nach Informationen, die in großen Datenmengen durch Algorithmen verborgen sind.

Data Mining hängt normalerweise mit der Informatik zusammen und erreicht die oben genannten Ziele durch viele Methoden wie Statistik, analytische Online-Verarbeitung, Informationsabruf, maschinelles Lernen, Expertensysteme (basierend auf früheren Faustregeln) und Mustererkennung.

Data Mining ist ein unverzichtbarer Bestandteil der Wissensermittlung in Datenbanken (KDD), und KDD ist der gesamte Prozess der Umwandlung von Rohdaten in nützliche Informationen. Dieser Prozess umfasst eine Reihe von Konvertierungsschritten von der Datenvorverarbeitung bis zur Nachverarbeitung Data-Mining-Ergebnisse.

Was ist Data Mining?

Der Ursprung des Data Mining

Forscher aus verschiedenen Disziplinen kamen zusammen und begannen, Tools zu entwickeln, die mit verschiedenen Datentypen umgehen können. Effizientere, skalierbarere Tools. Diese Arbeiten basieren auf den Methoden und Algorithmen, die zuvor von Forschern verwendet wurden, und gipfeln im Bereich des Data Mining.

Data Mining nutzt insbesondere Ideen aus den folgenden Bereichen: (1) Stichprobenziehung, Schätzung und Hypothesentests aus Statistiken (2) Suchalgorithmus-Modellierung von künstlicher Intelligenz, Mustererkennung und maschinellem Lernen. Technologie und Lerntheorie.

Data Mining hat auch schnell Ideen aus anderen Bereichen übernommen, darunter Optimierung, Evolutionsberechnung, Informationstheorie, Signalverarbeitung, Visualisierung und Informationsabruf.

Auch einige andere Bereiche spielen eine wichtige unterstützende Rolle. Datenbanksysteme bieten effiziente Unterstützung für Speicherung, Indizierung und Abfrageverarbeitung. Technologien, die sich aus dem Hochleistungsrechnen (Parallelrechnen) ableiten, sind oft wichtig für die Verarbeitung riesiger Datenmengen. Verteilte Technologien können auch bei der Verarbeitung riesiger Datenmengen hilfreich sein und sind umso wichtiger, wenn die Daten nicht zentral verarbeitet werden können.

Was ist Data Mining?

KDD (Knowledge Discovery from Database)

Datenbereinigung

Rauschen eliminieren und inkonsistente Daten;
Datenintegration

Mehrere Datenquellen können miteinander kombiniert werden
Datenauswahl

Daten im Zusammenhang mit Analyseaufgaben aus der Datenbank extrahieren;
Datentransformation

Transformieren und vereinheitlichen Sie die Daten in für das Mining geeignete Daten durch Zusammenfassungs- oder Aggregationsoperationen
Grundschritte des Data Mining

mit intelligenten Methoden Datenmuster extrahieren;
Musterauswertung

Identifizieren Sie wirklich interessante Muster, die Wissen basierend auf einem bestimmten Grad an Interesse darstellen.
Wissensdarstellung

Verwenden Sie Visualisierungs- und Wissensdarstellungstechnologie, um Benutzern fundiertes Wissen bereitzustellen.

Was ist Data Mining?

Data-Mining-Methodik

Geschäftsverständnis

Verstehen Sie die Ziele und Anforderungen des Projekts aus geschäftlicher Sicht, wandeln Sie dieses Verständnis dann durch theoretische Analyse in umsetzbare Data-Mining-Probleme um und formulieren Sie vorläufige Pläne zur Erreichung der Ziele
Datenverständnis

Die Datenverständnisphase beginnt mit der Sammlung von Rohdaten, macht sich dann mit den Daten vertraut, identifiziert Probleme mit der Datenqualität, untersucht ein vorläufiges Verständnis der Daten und entdeckt interessante Teilmengen zur Formulierung der Informationshypothese
Datenvorbereitung (Datenvorbereitung)

Die Datenvorbereitungsphase bezieht sich auf die Aktivität der Erstellung der für das Data Mining erforderlichen Informationen aus den unverarbeiteten Daten in den ursprünglichen Rohdaten. Datenvorbereitungsaufgaben können ohne vorgeschriebene Reihenfolge mehrmals durchgeführt werden. Der Hauptzweck dieser Aufgaben besteht darin, die erforderlichen Informationen aus dem Quellsystem gemäß den Anforderungen der Dimensionsanalyse zu erhalten, was eine Datenvorverarbeitung wie Datenkonvertierung, Bereinigung, Konstruktion und Integration erfordert 🎜>Modellieren
Modellbewertung (Bewertung)
Modellbereitstellung (Bereitstellung)

Was ist Data Mining?

Data-Mining-Aufgaben

Im Allgemeinen werden Data-Mining-Aufgaben in die folgenden zwei Kategorien unterteilt.

Vorhersageaufgabe. Das Ziel dieser Aufgaben besteht darin, den Wert eines bestimmten Attributs basierend auf dem Wert anderer Attribute vorherzusagen. Die vorherzusagenden Attribute werden im Allgemeinen als Zielvariablen oder abhängige Variablen bezeichnet, und die zur Vorhersage verwendeten Attribute werden als erklärende Variablen oder unabhängige Variablen bezeichnet.
Beschreiben Sie die Aufgabe . Ziel ist es, Muster (Korrelationen, Trends, Cluster, Trajektorien und Anomalien) abzuleiten, die die zugrunde liegenden Zusammenhänge in den Daten zusammenfassen. Deskriptive Data-Mining-Aufgaben sind häufig explorativer Natur und erfordern häufig Nachbearbeitungstechniken zur Überprüfung und Interpretation der Ergebnisse.

Prädiktive Modellierung (prädiktive Modellierung) Beinhaltet den Aufbau eines Modells für eine Zielvariable auf eine Weise, die die beschreibt Funktion der Variablen.

Es gibt zwei Arten von Vorhersagemodellierungsaufgaben: Klassifizierung zur Vorhersage diskreter Zielvariablen und Regression zur Vorhersage kontinuierlicher Zielvariablen.

Zum Beispiel ist die Vorhersage, ob ein Webbenutzer ein Buch in einem Online-Buchladen kaufen wird, eine Klassifizierungsaufgabe, da die Zielvariable binär ist, während die Vorhersage des zukünftigen Aktienkurses eine Regressionsaufgabe ist, da der Preis kontinuierlich ist -wertige Attribute.

Ziel beider Aufgaben ist es, ein Modell zu trainieren, um den Fehler zwischen dem vorhergesagten Wert und dem tatsächlichen Wert der Zielvariablen zu minimieren. Mithilfe prädiktiver Modelle können Kundenreaktionen auf Produktwerbung ermittelt, Störungen in den Ökosystemen der Erde vorhergesagt oder anhand von Testergebnissen festgestellt werden, ob ein Patient an einer Krankheit leidet.

Assoziationsanalyse wird verwendet, um Muster zu entdecken, die stark korrelierte Merkmale in Daten beschreiben.

Entdeckte Muster werden normalerweise in Form von Implikationsregeln oder Teilmengen von Merkmalen ausgedrückt. Da der Suchraum eine exponentielle Größe hat, besteht das Ziel der Korrelationsanalyse darin, die interessantesten Muster auf effiziente Weise zu extrahieren. Zu den Anwendungen der Assoziationsanalyse gehören das Auffinden von Genomen mit verwandten Funktionen, das Identifizieren von Webseiten, die Benutzer gemeinsam besuchen, und das Verstehen der Zusammenhänge zwischen verschiedenen Elementen des Klimasystems der Erde.

Clusteranalyse zielt darauf ab, eng verwandte Gruppen von Beobachtungen zu finden, sodass sich Beobachtungen, die zu demselben Cluster gehören, stärker voneinander unterscheiden als Beobachtungen, die zu verschiedenen Clustern gehören und möglichst ähnlich sind. Clustering kann verwendet werden, um verwandte Kunden zu gruppieren, Bereiche des Ozeans zu identifizieren, die das Klima der Erde erheblich beeinflussen, Daten zu komprimieren und vieles mehr.

Anomalieerkennung Die Aufgabe von besteht darin, Beobachtungen zu identifizieren, deren Merkmale sich deutlich von anderen Daten unterscheiden.

Solche Beobachtungen nennt man Anomalien oder Ausreißer. Das Ziel von Anomalieerkennungsalgorithmen besteht darin, echte Anomalien zu entdecken und zu vermeiden, dass normale Objekte fälschlicherweise als Anomalien gekennzeichnet werden. Mit anderen Worten: Ein guter Anomaliedetektor muss eine hohe Erkennungsrate und eine niedrige Fehlalarmrate aufweisen.

Zu den Anwendungen der Anomalieerkennung gehört die Erkennung von Betrug, Cyberangriffen, ungewöhnlichen Krankheitsmustern, Ökosystemstörungen und mehr.

Weitere Informationen zu diesem Thema finden Sie unter: PHP-Website für Chinesisch!

Das obige ist der detaillierte Inhalt vonWas ist Data Mining?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

3 Wochen vorByDDD

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

2 Wochen vorByDDD

Will R.E.P.O. Crossplay haben?

1 Monate vorBy尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

MinGW – Minimalistisches GNU für Windows

Dieses Projekt wird derzeit auf osdn.net/projects/mingw migriert. Sie können uns dort weiterhin folgen. MinGW: Eine native Windows-Portierung der GNU Compiler Collection (GCC), frei verteilbare Importbibliotheken und Header-Dateien zum Erstellen nativer Windows-Anwendungen, einschließlich Erweiterungen der MSVC-Laufzeit zur Unterstützung der C99-Funktionalität. Die gesamte MinGW-Software kann auf 64-Bit-Windows-Plattformen ausgeführt werden.

DVWA

Damn Vulnerable Web App (DVWA) ist eine PHP/MySQL-Webanwendung, die sehr anfällig ist. Seine Hauptziele bestehen darin, Sicherheitsexperten dabei zu helfen, ihre Fähigkeiten und Tools in einem rechtlichen Umfeld zu testen, Webentwicklern dabei zu helfen, den Prozess der Sicherung von Webanwendungen besser zu verstehen, und Lehrern/Schülern dabei zu helfen, in einer Unterrichtsumgebung Webanwendungen zu lehren/lernen Sicherheit. Das Ziel von DVWA besteht darin, einige der häufigsten Web-Schwachstellen über eine einfache und unkomplizierte Benutzeroberfläche mit unterschiedlichen Schwierigkeitsgraden zu üben. Bitte beachten Sie, dass diese Software

SecLists

SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7555

CakePHP-Tutorial

1383

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten