>  기사  >  백엔드 개발  >  Python의 로지스틱 회귀 알고리즘 예

Python의 로지스틱 회귀 알고리즘 예

PHPz
PHPz원래의
2023-06-11 17:52:331750검색

Python의 로지스틱 회귀 알고리즘 예제

로지스틱 회귀는 기계 학습 및 데이터 분석 분야에서 널리 사용되는 일반적으로 사용되는 분류 알고리즘입니다. 이 기사에서는 Python에서 분류를 위해 로지스틱 회귀 알고리즘을 사용하는 방법을 소개합니다. 구체적인 구현 단계는 다음과 같습니다.

1단계: 필요한 Python 라이브러리 가져오기

로지스틱 회귀 알고리즘 구현을 시작하기 전에 필요한 Python 라이브러리(예: NumPy 및 pandas(데이터 처리 및 정리용), sklearn 및 matplotlib(모델 훈련 및 평가, 데이터 시각화용)) 구체적인 코드는 다음과 같습니다.

import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,confusion_matrix
import matplotlib.pyplot as plt

%matplotlib inline

2단계: 데이터 세트 로드

다음으로 데이터 세트를 로드해야 합니다. 여기서는 붓꽃 데이터 세트(iris)를 예로 들어보겠습니다. 이 데이터 세트에는 3가지 다른 붓꽃 종(Setosa, Versicolour 및 Virginica)의 꽃받침 길이, 꽃받침 너비, 꽃잎 길이 및 꽃잎 너비의 4가지 특성이 포함되어 있습니다. 팬더를 사용하여 CSV 형식의 데이터 파일을 읽어 데이터 세트를 로드할 수 있습니다. 구체적인 코드는 다음과 같습니다.

data=pd.read_csv('iris.csv')
print(data.head())

3단계: 데이터 처리 및 분리

로지스틱 회귀 모델에 데이터를 입력하기 전에 다음을 처리해야 합니다. 그리고 데이터를 분리해 보세요. 먼저 데이터 세트의 레이블 열을 대상 변수(y)로 분리하고 나머지 특성 열을 독립 변수(X)로 사용해야 합니다. 둘째, 누락된 데이터 처리, 이상치 처리, 범주형 변수 변환 등을 포함하여 데이터를 처리해야 합니다. 여기서는 sklearn 라이브러리의 train_test_split 함수를 사용하여 데이터 세트를 훈련 데이터와 테스트 데이터로 무작위로 분할할 수 있습니다. 구체적인 코드는 다음과 같습니다.

X=data.iloc[:,:-1]
y=data.iloc[:,-1]

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)

4단계: 모델 훈련 및 평가

이제 로지스틱 회귀 알고리즘을 사용하여 훈련 데이터를 맞출 수 있습니다. sklearn 라이브러리의 LogisticRegression 클래스를 사용하여 로지스틱 회귀 객체를 만든 다음 fit 메서드를 사용하여 훈련 데이터를 맞출 수 있습니다. 훈련이 완료된 후 예측 방법을 사용하여 테스트 데이터를 예측하고 sklearn 라이브러리의 Accuracy_score 및 Confusion_matrix 함수를 사용하여 모델을 평가할 수 있습니다. 구체적인 코드는 다음과 같습니다.

lr=LogisticRegression()
lr.fit(X_train,y_train)

y_pred=lr.predict(X_test)

acc=accuracy_score(y_test,y_pred)
cm=confusion_matrix(y_test,y_pred)

print('Accuracy:', acc)
print('Confusion Matrix:
', cm)

5단계: 결과 시각화

마지막으로 matplotlib 라이브러리를 사용하여 결과를 시각화할 수 있습니다. 예를 들어 산점도나 히스토그램을 사용하여 데이터의 특성과 로지스틱 회귀 분류 경계를 표시할 수 있습니다. 구체적인 코드는 다음과 같습니다.

colors=['blue','green','red']
markers=['o','s','^']
labels=['Setosa','Versicolour','Virginica']

for i, target in enumerate(set(data.iloc[:,-1])):
    plt.scatter(x=data.loc[data.iloc[:,-1]==target,'petal_length'], 
                y=data.loc[data.iloc[:,-1]==target,'petal_width'],
                c=colors[i],
                marker=markers[i],
                label=labels[i])

x=np.linspace(0,8,1000)
y=(-lr.coef_[0][0]*x-lr.intercept_)/lr.coef_[0][1]
plt.plot(x,y,'k-',label='Decision Boundary')

plt.xlabel('Petal Length')
plt.ylabel('Petal Width')
plt.legend(loc='lower right')
plt.show()

요약하면 위의 내용은 Python에서 로지스틱 회귀 알고리즘을 구현하는 기본 단계이며, 이는 특정 데이터 세트 및 분류 문제에 따라 조정 및 개선될 수 있습니다. 로지스틱 회귀 알고리즘은 간단하고 사용하기 쉽지만 더 나은 분류 결과를 얻으려면 해당 원리에 대한 완전한 이해와 적절한 데이터 처리 및 모델 최적화가 필요합니다.

위 내용은 Python의 로지스틱 회귀 알고리즘 예의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.