Klassifizierung ist eine wichtige Data-Mining-Technik. Der Zweck der Klassifizierung besteht darin, basierend auf den Merkmalen des Datensatzes eine Klassifizierungsfunktion oder ein Klassifizierungsmodell (oft auch Klassifikator genannt) zu erstellen, mit der Stichproben unbekannter Kategorien einer der angegebenen Kategorien zugeordnet werden können. Für die Vorhersage können sowohl Klassifizierung als auch Regression verwendet werden. Der Unterschied zu Regressionsmethoden besteht darin, dass die Ausgabe der Klassifizierung diskrete Kategoriewerte sind, während die Ausgabe der Regression kontinuierliche oder geordnete Werte sind.
Der Prozess der Konstruktion eines Modells ist im Allgemeinen in zwei Phasen unterteilt: Training und Testen. Vor der Erstellung des Modells muss der Datensatz zufällig in einen Trainingsdatensatz und einen Testdatensatz unterteilt werden. In der Trainingsphase wird das Modell mithilfe des Trainingsdatensatzes erstellt, indem durch Attribute beschriebene Datenbanktupel analysiert werden, wobei davon ausgegangen wird, dass jedes Tupel zu einer vordefinierten Klasse gehört, die durch ein Attribut namens Klassenbezeichnungsattribut bestimmt wird. Ein einzelnes Tupel im Trainingsdatensatz wird auch als Trainingsstichprobe bezeichnet. Die Form einer bestimmten Stichprobe kann sein: (u1, u2,...un;c); Da die Klassenbezeichnung jedes Trainingsbeispiels bereitgestellt wird, wird diese Phase auch als geführtes Lernen bezeichnet. Typischerweise wird das Modell in Form von Klassifizierungsregeln, Entscheidungsbäumen oder mathematischen Formeln bereitgestellt. In der Testphase wird der Testdatensatz verwendet, um die Klassifizierungsgenauigkeit des Modells zu bewerten. Wenn die Genauigkeit des Modells als akzeptabel erachtet wird, kann das Modell zur Klassifizierung anderer Datentupel verwendet werden. Im Allgemeinen sind die Kosten der Testphase viel geringer als die der Trainingsphase. (Empfohlenes Lernen: Python-Video-Tutorial)
Um die Genauigkeit, Effektivität und Skalierbarkeit der Klassifizierung zu verbessern, werden Daten normalerweise vor der Klassifizierung vorverarbeitet, einschließlich:
(1 ) Datenbereinigung. Sein Zweck besteht darin, Datenrauschen zu beseitigen oder zu reduzieren und mit fehlenden Werten umzugehen.
(2) Korrelationsanalyse. Da viele Attribute im Datensatz für die Klassifizierungsaufgabe möglicherweise nicht relevant sind, wird die Einbeziehung dieser Attribute den Lernprozess verlangsamen und möglicherweise in die Irre führen. Der Zweck der Korrelationsanalyse besteht darin, diese irrelevanten oder redundanten Attribute zu entfernen.
(3) Datentransformation. Daten können auf übergeordnete Konzepte verallgemeinert werden. Beispielsweise kann der Wert des Attributs „Einkommen“ mit kontinuierlichem Wert auf diskrete Werte verallgemeinert werden: niedrig, mittel und hoch. Als weiteres Beispiel kann das Nominalwertattribut „Stadt“ auf das übergeordnete Konzept „Provinz“ verallgemeinert werden. Darüber hinaus können die Daten auch normalisiert werden, wodurch der Wert eines bestimmten Attributs in ein kleineres Intervall skaliert wird, z. B. [0,1] usw.
Typen und Merkmale von Klassifizierungsalgorithmen
Zu den Konstruktionsmethoden von Klassifizierungsmodellen gehören Entscheidungsbäume, statistische Methoden, Methoden des maschinellen Lernens, Methoden neuronaler Netzwerke usw. Gemäß der allgemeinen Richtung umfassen sie hauptsächlich: Entscheidungsbaum, Assoziationsregeln, Bayesian, neuronale Netze, Regellernen, K-Nearby-Methode, genetische Algorithmen, grobe Menge und Fuzzy-Logik-Technologie.
Entscheidungsbaum-Klassifizierungsalgorithmus
Der Entscheidungsbaum ist ein induktiver Lernalgorithmus, der auf Beispielen basiert. Es leitet Klassifizierungsregeln in Form einer Entscheidungsbaumdarstellung aus einer Menge ungeordneter, regelloser Tupel ab. Es verwendet eine von oben nach unten gerichtete rekursive Methode, um die Attributwerte an den internen Knoten des Entscheidungsbaums zu vergleichen, und verzweigt vom Knoten nach unten entsprechend den verschiedenen Attributwerten. Die Blattknoten sind die zu lernenden Klassen. Ein Pfad von der Wurzel zum Blattknoten entspricht einer konjunktiven Regel, und der gesamte Entscheidungsbaum entspricht einem Satz disjunktiver Ausdrucksregeln. 1986 schlug Quinlan den berühmten ID3-Algorithmus vor. Basierend auf dem ID3-Algorithmus schlug Quinlan 1993 den C4.5-Algorithmus vor. Um den Anforderungen der Verarbeitung großer Datensätze gerecht zu werden, wurden später mehrere verbesserte Algorithmen vorgeschlagen, darunter SLIQ (Super-vised Learning in Quest) und SPRINT (Scalable Parallelizable Induction of Decision Trees) zwei der repräsentativeren Algorithmen.
Bayesianischer Klassifizierungsalgorithmus
Der Bayesianische Klassifizierungsalgorithmus ist eine Klassifizierungsmethode in der Statistik. Es handelt sich um eine Art Algorithmus, der Wahrscheinlichkeit und statistisches Wissen zur Klassifizierung verwendet. In vielen Fällen kann der Klassifizierungsalgorithmus von Naive Bayes (NB) mit den Klassifizierungsalgorithmen für Entscheidungsbäume und neuronale Netze verglichen werden. Dieser Algorithmus kann auf große Datenbanken angewendet werden, und die Methode ist einfach, die Klassifizierungsgenauigkeit ist hoch und die Geschwindigkeit ist hoch schnell.
Da der Satz von Bayes davon ausgeht, dass die Auswirkung eines Attributwerts auf eine bestimmte Klasse unabhängig von den Werten anderer Attribute ist, und diese Annahme in tatsächlichen Situationen häufig nicht zutrifft, kann die Klassifizierungsgenauigkeit abnehmen. Aus diesem Grund wurden viele Bayes'sche Klassifizierungsalgorithmen abgeleitet, die die Unabhängigkeitsannahme reduzieren, wie beispielsweise der TAN-Algorithmus (Tree Augmented Bayes Network).
Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!
Das obige ist der detaillierte Inhalt vonKlassifizierungsalgorithmus. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!