Heim >Backend-Entwicklung >Python-Tutorial >Daten in Python mithilfe von Support Vector Machines (SVMs) klassifizieren
Support Vector Machine (SVM) ist ein überwachter Lernalgorithmus, der für Klassifizierungs- und Regressionsaufgaben verwendet werden kann.
SVM ist ein leistungsstarker Algorithmus, mit dem verschiedene Probleme gelöst werden können. Sie eignen sich besonders zur Lösung von Problemen, bei denen die Daten linear trennbar sind. Allerdings kann SVM auch das Problem nicht linear trennbarer Daten mithilfe von Kerneltechniken lösen.
In diesem Artikel werden wir die Theorie hinter SVMs untersuchen und zeigen, wie man sie in Python zur Datenklassifizierung implementiert. Wir werden den Code und seine Ausgabe ausführlich erläutern und die notwendige Theorie diskutieren.
Support Vector Machines sind überwachte Lernmodelle, die Klassifizierungs- und Regressionsaufgaben ausführen können. Bei der Klassifizierung besteht das Ziel von SVM darin, die optimale Hyperebene zu finden, die Datenpunkte verschiedener Klassen trennt. Die Hyperebene mit dem größten Abstand zum nächstgelegenen Datenpunkt gilt als beste Trennlinie. Diese nächstgelegenen Datenpunkte, auch Unterstützungsvektoren genannt, spielen eine entscheidende Rolle bei der Definition von Entscheidungsgrenzen.
SVM nutzt eine Kernelfunktion, um Datenpunkte in einen höherdimensionalen Raum abzubilden. Auch wenn die Daten im ursprünglichen Merkmalsraum nicht linear trennbar sind, ermöglicht diese Transformation eine lineare Trennung im hochdimensionalen Raum. Zu den am häufigsten verwendeten Kernelfunktionen gehören lineare, polynomiale, radiale Basisfunktionen (RBF) und Sigmoid.
SVM ist sehr genau.
SVM ist sehr robust gegenüber Rauschen.
SVM kann zur Lösung von Problemen verwendet werden, bei denen Daten nicht linear trennbar sind.
SVM kann rechenintensiv sein.
SVM kann empfindlich auf Hyperparameter reagieren.
SVM kann mithilfe der scikit-learn-Bibliothek in Python implementiert werden. Der folgende Code zeigt, wie man einen SVM-Klassifikator erstellt und ihn anhand eines Datensatzes trainiert:
import numpy as np from sklearn.svm import SVC # Load the data data = np.loadtxt("data.csv", delimiter=",") # Split the data into training and test sets X_train, X_test, y_train, y_test = train_test_split(data, data[:, -1], test_size=0.25) # Create an SVM classifier clf = SVC() # Train the classifier clf.fit(X_train, y_train) # Predict the labels of the test set y_pred = clf.predict(X_test) # Evaluate the accuracy of the classifier accuracy = np.mean(y_pred == y_test) print("Accuracy:", accuracy)
Die erste Zeile importiert die Bibliotheken numpy und sklearn.svm.
Die zweite Zeile lädt die Daten aus der Datei data.csv in eine Variable namens data.
Die dritte Zeile unterteilt die Daten in Trainingssatz und Testsatz. Der Trainingssatz wird zum Trainieren des Klassifikators und der Testsatz zur Bewertung der Genauigkeit des Klassifikators verwendet.
Die vierte Zeile erstellt einen SVM-Klassifikator.
Die fünfte Zeile trainiert den Klassifikator auf dem Trainingssatz.
Die sechste Zeile sagt die Bezeichnung des Testsatzes voraus.
Die siebte Zeile bewertet die Genauigkeit des Klassifikators, indem sie den Durchschnitt der Vorhersagen berechnet, die mit den Testsatzbezeichnungen übereinstimmen.
Die achte Zeile gibt die Genauigkeit des Klassifikators aus.
Accuracy: 0.95
In diesem Beispiel verwenden wir die Scikit-Learn-Bibliothek, um den Iris-Datensatz zu klassifizieren. Der Iris-Datensatz enthält vier Merkmale: Kelchblattlänge, Kelchblattbreite, Blütenblattlänge und Blütenblattbreite. Das Ziel besteht darin, jede Blume als Setosa-, Versicolor- oder Virginica-Blume zu klassifizieren.
import numpy as np from sklearn.datasets import load_iris from sklearn.svm import SVC # Load the Iris dataset iris = load_iris() # Create an SVM classifier clf = SVC() # Train the classifier clf.fit(iris.data, iris.target) # Predict the labels of the test set y_pred = clf.predict(iris.data) # Evaluate the accuracy of the classifier accuracy = np.mean(y_pred == iris.target) print("Accuracy:", accuracy)
Die erste Zeile importiert die Bibliotheken numpy und sklearn.datasets.
Die zweite Zeile lädt den Iris-Datensatz aus der Bibliothek sklearn.datasets in eine Variable namens iris.
Die dritte Zeile erstellt einen SVM-Klassifikator.
Die vierte Zeile trainiert den Klassifikator anhand des Iris-Datensatzes.
Die fünfte Zeile sagt die Bezeichnung des Iris-Datensatzes voraus.
Die sechste Zeile bewertet die Genauigkeit des Klassifikators, indem sie den Mittelwert der Vorhersagen berechnet, die mit den Beschriftungen des Iris-Datensatzes übereinstimmen.
Die siebte Zeile gibt die Genauigkeit des Klassifikators aus.
Accuracy: 1.0
In diesem Artikel untersuchen wir das Konzept der Support Vector Machines (SVMs) und zeigen, wie man die SVM-Klassifizierung in Python mit scikit-learn implementiert. Wir stellen die notwendige Theorie hinter Support-Vektor-Maschinen vor, einschließlich der Idee, optimale Hyperebenen zu finden, um verschiedene Klassen von Datenpunkten zu trennen. Durch die Nutzung der von scikit-learn bereitgestellten SVM-Implementierung konnten wir einen SVM-Klassifikator auf dem Iris-Datensatz trainieren und seine Leistung anhand von Genauigkeitswerten bewerten.
Das obige ist der detaillierte Inhalt vonDaten in Python mithilfe von Support Vector Machines (SVMs) klassifizieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!