Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

WBOY
WBOYnach vorne
2023-04-12 09:34:021499Durchsuche

1. Lineare Regression

Die lineare Regression ist wahrscheinlich der beliebteste Algorithmus für maschinelles Lernen. Bei der linearen Regression geht es darum, eine gerade Linie zu finden und diese gerade Linie so genau wie möglich an die Datenpunkte im Streudiagramm anzupassen. Es versucht, die unabhängigen Variablen (x-Werte) und numerischen Ergebnisse (y-Werte) darzustellen, indem eine Geradengleichung an diese Daten angepasst wird. Diese Linie kann dann zur Vorhersage zukünftiger Werte verwendet werden!

Die am häufigsten verwendete Technik für diesen Algorithmus ist die Methode der kleinsten Quadrate. Diese Methode berechnet eine Linie mit der besten Anpassung, die den senkrechten Abstand von jedem Datenpunkt auf der Linie minimiert. Die Gesamtdistanz ist die Summe der Quadrate der vertikalen Distanzen (grüne Linie) aller Datenpunkte. Die Idee besteht darin, das Modell anzupassen, indem dieser quadratische Fehler oder diese Distanz minimiert wird.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Zum Beispiel eine einfache lineare Regression, die eine unabhängige Variable (x-Achse) und eine abhängige Variable (y-Achse) hat.

2. Logistische Regression

Die logistische Regression ähnelt der linearen Regression, wird jedoch verwendet, wenn die Ausgabe binär ist (d. h. wenn das Ergebnis nur zwei mögliche Werte haben kann). Die Vorhersage der endgültigen Ausgabe ist eine nichtlineare Sigmoidfunktion, die als Logistikfunktion g() bezeichnet wird.

Diese Logistikfunktion ordnet den Zwischenergebniswert der Ergebnisvariablen Y zu, deren Wert zwischen 0 und 1 liegt. Diese Werte können dann als Wahrscheinlichkeit interpretiert werden, dass Y auftritt. Die Eigenschaften der Sigmoid-Logistikfunktion machen die logistische Regression besser für Klassifizierungsaufgaben geeignet.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Logistisches Regressionsdiagramm, das die Wahrscheinlichkeit, die Prüfung zu bestehen, als Funktion der Lernzeit zeigt.

3. Entscheidungsbäume

Entscheidungsbäume können für Regressions- und Klassifizierungsaufgaben verwendet werden.

In diesem Algorithmus lernt das Trainingsmodell, den Wert der Zielvariablen vorherzusagen, indem es die Entscheidungsregel der Baumdarstellung lernt. Ein Baum besteht aus Knoten mit entsprechenden Attributen.

An jedem Knoten stellen wir Fragen zu den Daten basierend auf den verfügbaren Funktionen. Der linke und der rechte Zweig stellen mögliche Antworten dar. Der letzte Knoten (d. h. Blattknoten) entspricht einem vorhergesagten Wert.

Die Wichtigkeit jeder Funktion wird durch einen Top-Down-Ansatz bestimmt. Je höher der Knoten, desto wichtiger sind seine Eigenschaften.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Beispiel eines Entscheidungsbaums für die Entscheidung, ob in einem Restaurant gewartet werden soll.

4. Naive Bayes

Naive Bayes (Naive Bayes) basiert auf dem Satz von Bayes. Es misst die Wahrscheinlichkeit jeder Klasse, die bedingte Wahrscheinlichkeit jeder Klasse bei gegebenem Wert von x. Dieser Algorithmus wird bei Klassifizierungsproblemen verwendet und liefert ein binäres Ja/Nein-Ergebnis. Schauen Sie sich die Gleichung unten an.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Der Naive Bayes-Klassifikator ist eine beliebte statistische Technik, die zum Filtern von Spam verwendet werden kann!

5. Support Vector Machine (SVM)

Support Vector Machine (SVM) ist ein überwachter Algorithmus für Klassifizierungsprobleme. Eine Support-Vektor-Maschine versucht, zwei Linien zwischen Datenpunkten mit dem größten Abstand zwischen ihnen zu zeichnen. Dazu zeichnen wir Datenelemente als Punkte im n-dimensionalen Raum auf, wobei n die Anzahl der Eingabemerkmale ist. Auf dieser Grundlage findet die Support-Vektor-Maschine eine optimale Grenze, eine sogenannte Hyperebene, die mögliche Ausgaben nach Klassenbezeichnungen bestmöglich trennt.

Der Abstand zwischen der Hyperebene und dem nächstgelegenen Klassenpunkt wird als Rand bezeichnet. Die optimale Hyperebene hat den größten Spielraum, der Punkte so klassifiziert, dass der Abstand zwischen dem nächstgelegenen Datenpunkt und den beiden Klassen maximiert wird.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Beispielsweise trennt H1 diese beiden Klassen nicht. Aber H2 schon, aber nur mit winzigen Margen. Und H3 trennt sie mit dem größten Abstand.

6.K-Nearest Neighbors-Algorithmus (KNN)

K-Nearest Neighbors (KNN) ist sehr einfach. KNN klassifiziert Objekte, indem es den gesamten Trainingssatz nach den K ähnlichsten Instanzen oder K Nachbarn durchsucht und allen K Instanzen eine gemeinsame Ausgabevariable zuweist. Die Wahl von

K ist entscheidend: Kleinere Werte können zu viel Rauschen und ungenauen Ergebnissen führen, während größere Werte undurchführbar sind. Es wird am häufigsten zur Klassifizierung verwendet, eignet sich aber auch für Regressionsprobleme.

Der zur Bewertung der Ähnlichkeit zwischen Instanzen verwendete Abstand kann der euklidische Abstand, der Manhattan-Abstand oder der Minkowski-Abstand sein. Der euklidische Abstand ist der gewöhnliche geradlinige Abstand zwischen zwei Punkten. Es ist eigentlich die Quadratwurzel der Summe der quadrierten Differenzen der Punktkoordinaten.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

▲KNN-Klassifizierungsbeispiel

7.K-Mittel

K-Mittel (K-Mittel) wird durch Klassifizierung des Datensatzes geclustert. Dieser Algorithmus kann beispielsweise verwendet werden, um Benutzer basierend auf der Kaufhistorie zu gruppieren. Es findet K-Cluster im Datensatz. K-means wird für unbeaufsichtigtes Lernen verwendet, daher müssen wir nur die Trainingsdaten X und die Anzahl der Cluster, die wir identifizieren möchten, K verwenden.

Der Algorithmus ordnet jeden Datenpunkt basierend auf seinen Eigenschaften iterativ einer von K Gruppen zu. Es wählt K Punkte für jeden K-Cluster aus (genannt Schwerpunkte). Basierend auf der Ähnlichkeit werden dem Cluster neue Datenpunkte mit dem nächstgelegenen Schwerpunkt hinzugefügt. Dieser Vorgang setzt sich fort, bis sich der Schwerpunkt nicht mehr verändert.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

8. Random Forest

Random Forest (Random Forest) ist ein sehr beliebter Ensemble-Algorithmus für maschinelles Lernen. Die Grundidee dieses Algorithmus besteht darin, dass die Meinungen vieler Menschen zutreffender sind als die Meinungen eines Einzelnen. In einem Zufallswald verwenden wir ein Ensemble von Entscheidungsbäumen (siehe Entscheidungsbäume).

Um neue Objekte zu klassifizieren, stimmen wir aus jedem Entscheidungsbaum ab und kombinieren die Ergebnisse, bevor wir die endgültige Entscheidung auf der Grundlage einer Mehrheitsentscheidung treffen.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Während des Trainingsprozesses wird jeder Entscheidungsbaum basierend auf den Bootstrap-Beispielen des Trainingssatzes erstellt.

Während des Klassifizierungsprozesses werden Entscheidungen über Eingabeinstanzen auf der Grundlage einer Mehrheitsentscheidung getroffen.

9. Dimensionsreduktion

Probleme beim maschinellen Lernen sind aufgrund der schieren Datenmenge, die wir heute erfassen können, komplexer geworden. Das bedeutet, dass das Training extrem langsam ist und es schwierig ist, eine gute Lösung zu finden. Dieses Problem wird oft als „Fluch der Dimensionalität“ bezeichnet.

Dimensionalitätsreduktion versucht, dieses Problem zu lösen, indem bestimmte Merkmale zu übergeordneten Merkmalen kombiniert werden, ohne dass die wichtigsten Informationen verloren gehen. Die Hauptkomponentenanalyse (PCA) ist die beliebteste Technik zur Dimensionsreduktion.

Die Hauptkomponentenanalyse reduziert die Dimensionalität eines Datensatzes, indem sie ihn in niedrigdimensionale Linien oder Hyperebenen/Unterräume komprimiert. Dadurch bleiben so viele hervorstechende Merkmale der Originaldaten wie möglich erhalten.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Ein Beispiel für Dimensionsreduktion kann durch die Annäherung aller Datenpunkte an eine gerade Linie erreicht werden.

10. Künstliche neuronale Netze (KNN)

Künstliche neuronale Netze (KNN) können große und komplexe maschinelle Lernaufgaben bewältigen. Ein neuronales Netzwerk besteht im Wesentlichen aus einer Reihe miteinander verbundener Schichten, die aus gewichteten Kanten und Knoten, sogenannten Neuronen, bestehen. Zwischen der Eingabeebene und der Ausgabeebene können wir mehrere ausgeblendete Ebenen einfügen. Künstliche neuronale Netze nutzen zwei verborgene Schichten. Darüber hinaus muss Deep Learning behandelt werden.

Das Funktionsprinzip eines künstlichen neuronalen Netzwerks ähnelt der Struktur des Gehirns. Einer Gruppe von Neuronen wird eine zufällige Gewichtung zugewiesen, um zu bestimmen, wie das Neuron die Eingabedaten verarbeitet. Die Beziehung zwischen Eingabe und Ausgabe wird durch das Training eines neuronalen Netzwerks anhand von Eingabedaten erlernt. Während der Trainingsphase hat das System Zugriff auf die richtigen Antworten.

Wenn das Netzwerk die Eingabe nicht genau erkennen kann, passt das System die Gewichte an. Nach ausreichendem Training erkennt es stets die richtigen Muster.

Die zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!

Jeder kreisförmige Knoten stellt ein künstliches Neuron dar, und die Pfeile stellen Verbindungen vom Ausgang eines künstlichen Neurons zum Eingang eines anderen künstlichen Neurons dar.

Was kommt als nächstes? Jetzt haben Sie die Grundlagen der beliebtesten Algorithmen für maschinelles Lernen kennengelernt. Sie sind bereit, komplexere Konzepte zu erlernen und diese durch gründliche, praktische Übungen sogar umzusetzen. Wenn Sie lernen möchten, wie man diese Algorithmen implementiert, wendet der Grokking Data Science-Kurs von Educative diese spannenden Theorien auf klare, reale Anwendungen an.

Wünsche dir viel Spaß beim Lernen!

Das obige ist der detaillierte Inhalt vonDie zehn wichtigsten Algorithmen, die Sie über maschinelles Lernen kennen und kennen müssen!. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen