Rumah >pembangunan bahagian belakang >Tutorial Python >Kelaskan data dalam Python menggunakan Mesin Vektor Sokongan (SVM)
Mesin Vektor Sokongan (SVM) ialah algoritma pembelajaran diselia yang boleh digunakan untuk tugas klasifikasi dan regresi.
SVM ialah algoritma berkuasa yang boleh digunakan untuk menyelesaikan pelbagai masalah. Ia amat sesuai untuk menyelesaikan masalah di mana data boleh dipisahkan secara linear. Walau bagaimanapun, SVM juga boleh menyelesaikan masalah data yang tidak boleh dipisahkan secara linear dengan menggunakan teknik kernel.
Dalam artikel ini, kami akan meneroka teori di sebalik SVM dan menunjukkan cara melaksanakannya dalam Python untuk klasifikasi data. Kami akan memberikan penjelasan terperinci tentang kod dan outputnya, dan membincangkan teori yang diperlukan.
Mesin vektor sokongan ialah model pembelajaran diselia yang boleh melaksanakan tugas klasifikasi dan regresi. Untuk klasifikasi, matlamat SVM adalah untuk mencari hyperplane optimum yang memisahkan titik data kelas yang berbeza. Hyperplane dengan margin terbesar dari titik data terdekat dianggap sebagai pemisah terbaik. Titik data terdekat ini, juga dikenali sebagai vektor sokongan, memainkan peranan penting dalam menentukan sempadan keputusan.
SVM berfungsi dengan menggunakan fungsi kernel untuk memetakan titik data ke ruang dimensi yang lebih tinggi. Walaupun data tidak boleh dipisahkan secara linear dalam ruang ciri asal, transformasi ini membenarkan pemisahan linear dalam ruang dimensi tinggi. Fungsi kernel yang paling biasa digunakan termasuk linear, polinomial, fungsi asas jejari (RBF), dan sigmoid.
SVM sangat tepat.
SVM sangat teguh kepada bunyi bising.
SVM boleh digunakan untuk menyelesaikan masalah di mana data tidak boleh dipisahkan secara linear.
SVM boleh jadi mahal dari segi pengiraan.
SVM boleh menjadi sensitif kepada hiperparameter.
SVM boleh dilaksanakan dalam Python menggunakan perpustakaan scikit-learn. Kod berikut menunjukkan cara membuat pengelas SVM dan melatihnya pada set data:
import numpy as np from sklearn.svm import SVC # Load the data data = np.loadtxt("data.csv", delimiter=",") # Split the data into training and test sets X_train, X_test, y_train, y_test = train_test_split(data, data[:, -1], test_size=0.25) # Create an SVM classifier clf = SVC() # Train the classifier clf.fit(X_train, y_train) # Predict the labels of the test set y_pred = clf.predict(X_test) # Evaluate the accuracy of the classifier accuracy = np.mean(y_pred == y_test) print("Accuracy:", accuracy)
Barisan pertama mengimport perpustakaan numpy dan sklearn.svm.
Barisan kedua memuatkan data daripada data fail.csv ke dalam pembolehubah bernama data.
Barisan ketiga membahagikan data kepada set latihan dan set ujian. Set latihan digunakan untuk melatih pengelas, dan set ujian digunakan untuk menilai ketepatan pengelas.
Barisan keempat mencipta pengelas SVM.
Barisan kelima melatih pengelas pada set latihan.
Baris keenam meramalkan label set ujian.
Baris ketujuh menilai ketepatan pengelas dengan mengira purata ramalan yang sepadan dengan label set ujian.
Baris kelapan mencetak ketepatan pengelas.
Accuracy: 0.95
Dalam contoh ini, kami akan menggunakan perpustakaan scikit-learn untuk mengklasifikasikan set data Iris. Set data Iris mengandungi empat ciri: panjang sepal, lebar sepal, panjang kelopak dan lebar kelopak. Matlamatnya adalah untuk mengklasifikasikan setiap bunga sebagai bunga setosa, versicolor, atau virginica.
import numpy as np from sklearn.datasets import load_iris from sklearn.svm import SVC # Load the Iris dataset iris = load_iris() # Create an SVM classifier clf = SVC() # Train the classifier clf.fit(iris.data, iris.target) # Predict the labels of the test set y_pred = clf.predict(iris.data) # Evaluate the accuracy of the classifier accuracy = np.mean(y_pred == iris.target) print("Accuracy:", accuracy)
Barisan pertama mengimport perpustakaan numpy dan sklearn.datasets.
Barisan kedua memuatkan set data Iris daripada pustaka sklearn.datasets ke dalam pembolehubah bernama iris.
Barisan ketiga mencipta pengelas SVM.
Barisan keempat melatih pengelas pada set data Iris.
Baris kelima meramalkan label set data Iris.
Baris 6 menilai ketepatan pengelas dengan mengira purata ramalan yang sepadan dengan label set data Iris.
Baris ketujuh mencetak ketepatan pengelas.
Accuracy: 1.0
Dalam artikel ini, kami meneroka konsep Mesin Vektor Sokongan (SVM) dan menunjukkan cara melaksanakan klasifikasi SVM dalam Python menggunakan scikit-learn. Kami memperkenalkan teori yang diperlukan di sebalik mesin vektor sokongan, termasuk idea mencari hyperplanes optimum untuk memisahkan kelas mata data yang berbeza. Dengan memanfaatkan pelaksanaan SVM yang disediakan oleh scikit-learn, kami dapat melatih pengelas SVM pada set data Iris dan menilai prestasinya menggunakan skor ketepatan.
Atas ialah kandungan terperinci Kelaskan data dalam Python menggunakan Mesin Vektor Sokongan (SVM). Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!