>  기사  >  백엔드 개발  >  Python에서 분류를 위해 KNN 알고리즘을 사용하는 방법은 무엇입니까?

Python에서 분류를 위해 KNN 알고리즘을 사용하는 방법은 무엇입니까?

PHPz
PHPz원래의
2023-06-05 09:02:041585검색

K KNN(Nearest Neighbor Algorithm)은 분류 및 회귀에 사용할 수 있는 간단하고 효과적인 알고리즘입니다. 기본 아이디어는 서로 다른 특징 사이의 거리를 측정하여 샘플이 속한 카테고리를 식별하는 것입니다. 이번 글에서는 Python에서 KNN을 분류하는 방법을 살펴보겠습니다.

1. 데이터 세트 준비

먼저 데이터 세트를 준비해야 합니다. 이 예에서는 각각 4가지 특징(꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비)이 있는 3가지 붓꽃(Setosa, Versicolour 및 Virginica)이 포함된 Iris 데이터세트를 사용합니다.

Pandas 라이브러리를 사용하여 데이터를 읽고 전처리합니다. 먼저 필요한 라이브러리를 가져와야 합니다.

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

그런 다음 데이터세트를 로드합니다.

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']
dataset = pd.read_csv(url, names=names)

이제 데이터세트가 있으므로 탐색을 시작할 수 있습니다.

2. 데이터 시각화

분류에 앞서 데이터를 시각화하고 탐색해야 합니다. 우리는 각 특징의 히스토그램뿐만 아니라 다른 특징에 대한 각 특징의 산점도를 그릴 것입니다. 시각화를 위해 Matplotlib 라이브러리와 Seaborn 라이브러리를 사용할 수 있습니다.

기능 간 산점도:

import seaborn as sns
sns.pairplot(dataset, hue="class")

642e23f85878d4ff165e7984eb86ab53

이것에서 가능합니다 그림을 통해 붓꽃의 특성이 매우 다르다는 것을 알 수 있으며, 이는 분류의 기초가 됩니다.

각 기능의 히스토그램:

dataset.hist()
plt.show()

e4f4245006bd7ec74460a8fae9b5c005

이 사진에서 가능 데이터 세트의 각 기능은 정규화의 기초가 되는 서로 다른 분포를 가지고 있음을 알 수 있습니다.

3. 데이터 전처리

분류 전에 데이터 전처리가 필요합니다. 데이터 세트를 입력 특성과 출력 범주로 분할한 다음 특성 값을 0~1 범위로 확장할 수 있습니다.

먼저 데이터 세트를 입력 특성과 출력 범주로 나눕니다.

X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values

그런 다음 특성 값을 0에서 1 사이의 범위로 조정합니다.

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X = scaler.fit_transform(X)

이제 전처리된 데이터 세트가 있습니다.

4. 데이터 세트 분할

분류 전에 데이터 세트를 훈련 세트와 테스트 세트로 분할해야 합니다. Scikit-learn 라이브러리의 train_test_split 함수를 사용하여 이를 수행할 수 있습니다.

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

이렇게 하면 80:20 비율의 훈련 세트와 테스트 세트가 생성됩니다.

5. KNN 모델 학습

이제 KNN 모델 학습을 시작할 수 있습니다. 먼저 KNeighborsClassifier 클래스를 가져오고 인스턴스를 만든 다음 fit 함수를 사용하여 모델을 맞춥니다.

from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=5)
classifier.fit(X_train, y_train)

이것은 KNN 분류기를 생성하고 훈련 세트를 사용하여 분류하도록 훈련시킵니다.

6. 예측

이제 KNN 모델을 사용하여 테스트 세트에 대한 예측을 할 수 있습니다. 예측 함수를 사용하여 예측을 하고 결과를 변수에 저장합니다.

y_pred = classifier.predict(X_test)

7. 모델 평가

마지막으로 모델을 평가하고 정확도를 결정해야 합니다. Scikit-learn 라이브러리의 conflict_matrix 및 classification_report 함수를 사용하여 모델의 정확성을 평가할 수 있습니다.

from sklearn.metrics import confusion_matrix, classification_report
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

이렇게 하면 모델의 정확성을 보여주는 혼동 행렬 및 분류 보고서가 출력됩니다.

요약

Python에서 분류를 위해 KNN 알고리즘을 사용하려면 다음 단계가 필요합니다.

1. 데이터 세트 준비
2. 데이터 사전 처리
4. KNN 모델 훈련
6. 예측
7. 모델 평가

KNN 알고리즘은 분류 및 회귀에 사용할 수 있는 간단하고 효과적인 알고리즘입니다. Python에서 분류를 위해 KNN 알고리즘을 사용하려면 위 단계를 따라야 합니다. 동시에 모델이 정확하게 분류할 수 있도록 데이터 시각화 및 전처리도 수행해야 합니다.

위 내용은 Python에서 분류를 위해 KNN 알고리즘을 사용하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.