Heim >Technologie-Peripheriegeräte >KI >Einführung in die 12 wichtigsten Algorithmen des unüberwachten Lernens und eine Zusammenfassung ihrer Anwendungsfälle
Unüberwachtes Lernen ist eine weitere gängige Methode des maschinellen Lernens im Gegensatz zum überwachten Lernen. Es gibt keine Datenanmerkung, sondern nur die Daten selbst.
Die folgenden sind die 12 wichtigsten:
k-means-Clustering ist ein beliebter Clustering-Algorithmus, der Daten in k Gruppen unterteilt.
Die Hauptkomponentenanalyse (PCA) ist ein Dimensionsreduktionsalgorithmus, der die Daten transformiert Daten in einen niedrigdimensionalen Raum projizieren, kann PCA verwendet werden, um die Dimensionalität der Daten auf ihre wichtigsten Merkmale zu reduzieren.
Support-Vektor-Maschinen können zur Anomalieerkennung verwendet werden (Beispiel). Anomalieerkennungsalgorithmen werden verwendet, um abnormale Punkte in Datensätzen zu erkennen. Es gibt viele Methoden zur Anomalieerkennung, die meisten davon können jedoch in überwachte und unbeaufsichtigte unterteilt werden. Überwachte Methoden erfordern gekennzeichnete Datensätze, unüberwachte Methoden dagegen nicht.
Unüberwachte Anomalieerkennungsalgorithmen basieren normalerweise auf einer Dichteschätzung und versuchen, Punkte außerhalb dichter Regionen im Datenraum zu finden.
Eine einfache Methode besteht darin, die durchschnittliche Entfernung jedes Punktes zu seinen k nächsten Nachbarn zu berechnen. Punkte, die sehr weit von benachbarten Punkten entfernt sind, sind wahrscheinlich Ausreißer.
Es gibt auch viele dichtebasierte Anomalieerkennungsalgorithmen, darunter Local Outlier Factor (LOF) und Support Vector Domain Description (SVDD). Diese Algorithmen sind komplexer als einfache k-Nearest-Neighbor-Methoden und können häufig subtilere Anomalien erkennen. Die meisten Anomalieerkennungsalgorithmen erfordern eine Optimierung, z. B. die Angabe eines Parameters, um zu steuern, wie empfindlich der Algorithmus auf Anomalien reagiert. Wenn die Parameter zu niedrig sind, übersieht der Algorithmus möglicherweise einige Anomalien. Wenn der Algorithmus zu hoch eingestellt ist, kann es zu falsch positiven Ergebnissen kommen (normale Punkte werden als abnormale Punkte identifiziert).
Der Segmentierungsalgorithmus kann das Bild in Vordergrund und Hintergrund aufteilen.
Diese Algorithmen können Datensätze automatisch in sinnvolle Gruppen segmentieren, ohne dass eine menschliche Aufsicht erforderlich ist. Einer der bekannteren Algorithmen auf diesem Gebiet ist der k-means-Algorithmus. Dieser Algorithmus unterteilt Datenpunkte in k Gruppen, indem er die Summe der quadrierten Abstände innerhalb der Gruppe minimiert.
Ein weiterer beliebter Segmentierungsalgorithmus ist der Mean-Shift-Algorithmus. Der Algorithmus funktioniert, indem er jeden Datenpunkt iterativ in Richtung der Mitte seiner lokalen Nachbarschaft verschiebt. Die mittlere Verschiebung ist äußerst robust gegenüber Ausreißern und kann Datensätze mit ungleichmäßiger Dichte verarbeiten. Die Ausführung bei großen Datensätzen kann jedoch rechenintensiv sein.
Das Gaussian Mixture Model (GMM) ist ein probabilistisches Modell, das zur Segmentierung verwendet werden kann. Früher erforderte das Training von gmm viel Rechenaufwand, doch jüngste Fortschritte in der Forschung haben es schneller gemacht. gmm ist sehr flexibel und kann mit jeder Art von Daten verwendet werden. Aber manchmal liefern sie nicht immer die besten Ergebnisse. Für einfache Datensätze ist k-means eine gute Wahl, während gmm für komplexe Datensätze besser geeignet ist. Die mittlere Verschiebung kann in beiden Fällen verwendet werden, kann jedoch bei großen Datensätzen rechenintensiv sein.
Die Wavelet-Transformation kann zur Bildrauschunterdrückung verwendet werden. Aber Rauschen kann aus verschiedenen Quellen entstehen, darunter Datenbeschädigung, fehlende Werte und Ausreißer. Rauschunterdrückungsalgorithmen verbessern die Genauigkeit unbeaufsichtigter Lernmodelle, indem sie den Rauschanteil in den Daten reduzieren.
Es gibt viele existierende Rauschunterdrückungsalgorithmen, darunter die Hauptkomponentenanalyse (PCA), die unabhängige Komponentenanalyse (ICA) und die nicht negative Matrixfaktorisierung (NMF).
Linkvorhersage kann verwendet werden, um vorherzusagen, wer Freunde werden wird in sozialen Netzwerken. Einer der am häufigsten verwendeten Link-Vorhersagealgorithmen ist der Preferential-Join-Algorithmus, der vorhersagt, dass zwei Knoten mit größerer Wahrscheinlichkeit verbunden werden, wenn viele bestehende Verbindungen vorhanden sind.
Ein weiterer beliebter Verbindungsvorhersagealgorithmus ist der lokale Pfadalgorithmus, der vorhersagt, dass zwei Knoten mit größerer Wahrscheinlichkeit assoziiert sind, wenn sie einen gemeinsamen Nachbarn haben. Dieser Algorithmus kann das Konzept der „strukturellen Äquivalenz“ erfassen und wird daher häufig in biologischen Netzwerken eingesetzt.
Schließlich ist der Random Walk mit Neustart-Algorithmus auch ein Verbindungsvorhersagealgorithmus, der einen zufälligen Wanderer im Netzwerk simuliert und den Wanderer an einem zufälligen Knoten neu startet [17]. Die Wahrscheinlichkeit, dass ein Wanderer an einem bestimmten Knoten ankommt, wird dann verwendet, um die Wahrscheinlichkeit zu messen, dass eine Verbindung zwischen zwei Knoten besteht.
Q-Learning ist ein Beispiel für einen wertbasierten Lernalgorithmus; er ist einfach zu implementieren und vielseitig. Aber Q-Learning führt manchmal zu suboptimalen Lösungen. Ein weiteres Beispiel ist das TD-Lernen, das rechenintensiver ist als Q-Learning, aber oft zu besseren Lösungen führt.
Autoencoder sind generative Modelle, mit denen aus Bilddatensätzen einzigartige Bilder erstellt werden können. Beim maschinellen Lernen ist ein generatives Modell ein Modell, das die statistischen Eigenschaften eines Datensatzes erfasst. Diese Modelle können zur Generierung neuer Daten verwendet werden, genau wie die Daten, auf denen sie trainiert wurden.
Generative Modelle werden für verschiedene Aufgaben wie unüberwachtes Lernen, Datenkomprimierung und Rauschunterdrückung verwendet. Es gibt viele Arten generativer Modelle, beispielsweise versteckte Markov-Modelle und Boltzmann-Maschinen. Jedes Modell hat seine Vor- und Nachteile und eignet sich für unterschiedliche Aufgaben.
Hidden-Markov-Modelle eignen sich gut für die Modellierung sequenzieller Daten, während Boltzmann-Maschinen besser für die Modellierung hochdimensionaler Daten geeignet sind. Generative Modelle können für unbeaufsichtigtes Lernen verwendet werden, indem sie auf unbeschrifteten Daten trainiert werden. Sobald das Modell trainiert ist, kann es zur Generierung neuer Daten verwendet werden. Diese generierten Daten können dann von Menschen oder anderen maschinellen Lernalgorithmen gekennzeichnet werden. Dieser Vorgang kann wiederholt werden, bis das generative Modell lernt, Daten zu generieren, die der gewünschten Ausgabe ähneln.
Für unüberwachtes Lernen kann Random Forest eine Gruppe ähnlicher Einträge finden, Ausreißer identifizieren und die Daten komprimieren.
Random Forest übertrifft nachweislich andere gängige Algorithmen für maschinelles Lernen (z. B. Support-Vektor-Maschinen) sowohl bei überwachten als auch bei unbeaufsichtigten Aufgaben. Random Forests sind ein leistungsstarkes Werkzeug für unbeaufsichtigtes Lernen, da sie hochdimensionale Daten mit vielen Funktionen verarbeiten können. Sie widerstehen auch einer Überanpassung, was bedeutet, dass sie gut auf neue Daten verallgemeinern können.
Er basiert auf der Dichte, also der Anzahl der Punkte in jeder Region. DBSCAN markiert Punkte innerhalb einer Gruppe, wenn sie nahe beieinander liegen, und ignoriert Punkte, wenn sie weiter voneinander entfernt sind. DBSCAN bietet im Vergleich zu anderen Clustering-Algorithmen einige Vorteile. Es kann Cluster unterschiedlicher Größe und Form finden und erfordert nicht, dass der Benutzer die Anzahl der Cluster im Voraus angibt. Darüber hinaus ist DBSCAN unempfindlich gegenüber Ausreißern, was bedeutet, dass es zum Auffinden von Daten verwendet werden kann, die von anderen Datensätzen nicht gut repräsentiert werden. Aber DBSCAN weist auch einige Mängel auf. Beispielsweise kann es schwierig sein, in einem sehr verrauschten Datensatz gute Cluster zu finden. Die andere Sache ist, dass DBSCAN einen Dichteschwellenwert erfordert, der möglicherweise nicht auf alle Datensätze anwendbar ist.
Der Apriori-Algorithmus ist der erste Assoziationsregel-Mining-Algorithmus und der klassischste Algorithmus. Es funktioniert, indem zunächst alle häufig vorkommenden Itemsets in den Daten gefunden und diese Itemsets dann zum Generieren von Regeln verwendet werden.
Es gibt viele Möglichkeiten, den Apriori-Algorithmus zu implementieren, der an unterschiedliche Anforderungen angepasst werden kann. Beispielsweise können Unterstützungs- und Konfidenzschwellenwerte gesteuert werden, um verschiedene Arten von Regeln zu finden.
Der Eclat-Algorithmus ist ein Tiefenalgorithmus, der eine vertikale Datendarstellung verwendet und auf einem Konzept basiert Gittertheorie. Der Suchraum (Konzeptgitter) wird mithilfe präfixbasierter Äquivalenzrelationen in kleinere Unterräume (Unterkonzeptgitter) unterteilt.
Das obige ist der detaillierte Inhalt vonEinführung in die 12 wichtigsten Algorithmen des unüberwachten Lernens und eine Zusammenfassung ihrer Anwendungsfälle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!