Heim > Artikel > Technologie-Peripheriegeräte > Welche Algorithmen sind für maschinelles Lernen der Einstiegsklasse erforderlich?
Was ist der k-Nearest-Neighbor-Algorithmus?
Der K-Nearest-Neighbor-Algorithmus wird im Allgemeinen auch als KNN-Algorithmus bezeichnet Der KNN-Algorithmus ist ein relativ einfach zu verstehender Algorithmus.
Wenn eine Stichprobe zu einer bestimmten Kategorie unter den k ähnlichsten (d. h. dem nächsten Nachbarn im Merkmalsraum) Stichproben im Merkmalsraum gehört, dann gehört die Stichprobe auch zu dieser Kategorie.
Quelle: Der KNN-Algorithmus wurde erstmals von Cover und Hart als Klassifizierungsalgorithmus vorgeschlagen Formel, wir werden später besprochen.
Bei der linearen Regression werden Regressionsgleichungen (Funktionen) verwendet, um die Beziehung zwischen einer oder mehreren unabhängigen Variablen (Eigenwerten) und abhängigen Variablen (Zielwerten) herzustellen. Eine Methode zur Modellanalyse.
Merkmale: Die Situation mit nur einer unabhängigen Variablen wird als univariate Regression bezeichnet, und die Situation mit mehr als einer unabhängigen Variablen wird als multiple Regression bezeichnet.Beispiel einer linearen Regression, dargestellt durch eine Matrix:
Wie verstehen Sie das? Schauen wir uns ein paar Beispiele an:
Hauspreis = 0,02×Entfernung vom zentralen Bereich+0,04×Stickoxidkonzentration in der Stadt+ (-0,12×seit Durchschnitt Immobilienpreis) + 0,254 × städtische Kriminalitätsrate
In den beiden obigen Beispielen sehen wir, dass eine Beziehung zwischen dem Merkmalswert und dem Zielwert hergestellt wird, die als lineares Modell verstanden werden kann. Logistische Regression
Logistische Regression ist ein Klassifizierungsmodell im maschinellen Lernen, obwohl der Name Regression enthält. Aufgrund der Einfachheit und Effizienz des Algorithmus wird er in der Praxis häufig eingesetzt.
Anwendungsszenarien: Klickrate der Anzeige, ob Spam, ob krank, Finanzbetrug, gefälschtes Konto.
Hier finden Sie eine Funktion, nämlich die Beurteilung zwischen den beiden Kategorien. Die logistische Regression ist ein leistungsstarkes Werkzeug zur Lösung des Zwei-Klassifizierungs-Problems.
Um die logistische Regression zu meistern, müssen Sie zwei Punkte beherrschen:
Was sind die Eingabewerte in der logistischen Regression?
Eingabe:
Aktivierungsfunktion: Sigmoidfunktion
Beurteilungskriterien
Die Regressionsergebnisse werden eingegeben. In der Sigmoidfunktion ist das Ausgabeergebnis : [0, 1] Ein Wahrscheinlichkeitswert im Intervall, der Standardwert ist 0,5 als Schwellenwert.
Die endgültige Klassifizierung der logistischen Regression besteht darin, anhand des Wahrscheinlichkeitswerts der Zugehörigkeit zu einer bestimmten Kategorie zu beurteilen, ob sie zu einer bestimmten Kategorie gehört. Diese Kategorie ist standardmäßig als 1 (positives Beispiel) markiert, und die andere Kategorie wird markiert als 0 (negatives Beispiel). (Praktisch für die Verlustberechnung)
Erläuterung der Ausgabeergebnisse (wichtig): Angenommen, es gibt zwei Kategorien A und B, und wir gehen davon aus, dass unser Wahrscheinlichkeitswert der Wahrscheinlichkeitswert ist, der zur Kategorie A(1) gehört. Gibt es nun eine Beispieleingabe für das Ausgabeergebnis der logistischen Regression von 0,55, dann überschreitet dieser Wahrscheinlichkeitswert 0,5, was bedeutet, dass das Ergebnis unseres Trainings oder unserer Vorhersage der Kategorie A(1) entspricht. Wenn das Ergebnis hingegen 0,3 beträgt, ist das Trainings- oder Vorhersageergebnis die Kategorie B(0).
Der Schwellenwert der logistischen Regression kann geändert werden. Wenn Sie im obigen Beispiel den Schwellenwert auf 0,6 festlegen, beträgt das Ausgabeergebnis 0,55, was zur Kategorie B gehört.
Der Ursprung der Idee des Entscheidungsbaums ist sehr einfach. Die bedingte Zweigstruktur in der Programmierung ist die If-Else-Struktur. Der früheste Entscheidungsbaum ist eine Klassifizierungslernmethode, die diese verwendet Art der Struktur zum Teilen von Daten
Entscheidungsbaum: Es handelt sich um eine Baumstruktur, in der jeder interne Knoten eine Beurteilung eines Attributs darstellt, jeder Zweig die Ausgabe eines Beurteilungsergebnisses darstellt und schließlich jeder Blattknoten ein Klassifizierungsergebnis darstellt. Die Essenz ist ein A-Baum, der aus mehreren Beurteilungsknoten besteht.
Wie ist dieser Satz zu verstehen? Anhand eines Gesprächsbeispiels
Der obige Fall ist, dass Mädchen das Alter durch qualitatives subjektives Bewusstsein an die Spitze setzen. Wenn dieser Prozess also quantifiziert werden muss, wie sollte damit umgegangen werden?
Zu diesem Zeitpunkt müssen Sie das Wissen der Informationstheorie nutzen: Informationsentropie und Informationsgewinn.
Ensemble-Lernen löst ein einzelnes Vorhersageproblem durch die Erstellung mehrerer Modelle. Es funktioniert durch die Generierung mehrerer Klassifikatoren/Modelle, die jeweils unabhängig voneinander lernen und Vorhersagen treffen. Diese Vorhersagen werden letztendlich zu einer kombinierten Vorhersage kombiniert, die besser ist als jede einzelne Klassifizierungsvorhersage.
Benutzerporträts, Anzeigenempfehlungen, Datensegmentierung, Suchmaschinen-Traffic-Empfehlungen, Identifizierung böswilligen Traffics
Business Push basierend auf Standortinformationen, News-Clustering , Filtern und Sortieren.
Bildsegmentierung, Dimensionsreduktion, Erkennung von Ausreißern; Erkennung von Genfragmenten mit derselben Funktion.
Ein typischer unbeaufsichtigter Lernalgorithmus, der hauptsächlich zur automatischen Klassifizierung ähnlicher Proben in eine Kategorie verwendet wird.
Im Clustering-Algorithmus werden Proben basierend auf der Ähnlichkeit zwischen Proben in verschiedene Kategorien eingeteilt. Verschiedene Ähnlichkeitsberechnungsmethoden führen zu unterschiedlichen Clustering-Ergebnissen.
Das obige ist der detaillierte Inhalt vonWelche Algorithmen sind für maschinelles Lernen der Einstiegsklasse erforderlich?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!