>  기사  >  백엔드 개발  >  Python 3.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법

Python 3.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법

WBOY
WBOY원래의
2023-07-30 09:37:492180검색

Python 3.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법

소개:
머신 러닝은 컴퓨터가 데이터를 학습하고 훈련하여 성능을 향상시킬 수 있는 인공 지능의 한 분야입니다. 그중 scikit-learn은 개발자가 기계 학습 모델을 신속하게 구축하고 배포하는 데 도움이 되는 일반적으로 사용되는 많은 기계 학습 알고리즘과 도구를 제공하는 강력한 Python 기계 학습 라이브러리입니다. 이 기사에서는 코드 예제와 함께 기계 학습을 위해 Python 3.x에서 scikit-learn 모듈을 사용하는 방법을 소개합니다.

1. scikit-learn 모듈 설치
scikit-learn 모듈을 사용하려면 먼저 설치해야 합니다. pip 도구를 사용하여 설치를 완료할 수 있습니다. 명령줄에 다음 명령을 입력하세요.
pip install scikit-learn

2. scikit-learn 모듈을 가져옵니다.
설치가 완료되면 scikit-learn을 가져올 수 있습니다. Python 스크립트에서 모듈을 학습하여 해당 기능을 사용하세요. 가져온 코드는 다음과 같습니다.
import sklearn

3. 데이터 세트 로드
머신러닝에서는 일반적으로 데이터 세트를 먼저 로드한 다음 처리하고 분석해야 합니다. scikit-learn은 알고리즘을 연습하고 테스트하는 데 사용할 수 있는 몇 가지 내장 데이터 세트를 제공합니다. 다음 코드는 scikit-learn에 내장된 데이터 세트인 Iris(붓꽃)를 로드하는 방법을 보여줍니다.
from sklearn.datasets import load_iris

붓꽃 데이터 세트 로드

iris = load_iris()

4.
기계 학습에서 데이터 전처리는 중요한 단계입니다. 여기에는 데이터 정리, 기능 선택, 데이터 정규화 및 기타 작업이 포함되어 데이터의 품질과 정확성을 보장합니다. 다음 코드 조각은 데이터 세트를 정규화하는 방법을 보여줍니다.
from sklearn.preprocessing import MinMaxScaler

MinMaxScaler 객체 생성

scaler = MinMaxScaler()

데이터 세트 정규화

normalized_data = scaler.fit_transform(iris.data)

5. 데이터 세트 분할
머신러닝에서는 일반적으로 모델을 훈련하고 모델 성능을 평가할 때 사용할 데이터 세트를 훈련 세트와 테스트 세트로 나누어야 합니다. 다음 코드는 데이터 세트를 훈련 세트와 테스트 세트로 분할하는 방법을 보여줍니다.
from sklearn.model_selection import train_test_split

데이터 세트를 훈련 세트와 테스트 세트로 분할

X_train, X_test, y_train, y_test = train_test_split(normalized_data, iris .target, test_size=0.2)

6. 훈련 모델
scikit-learn은 다양한 머신러닝 알고리즘을 제공하며, 데이터의 특성과 목표에 따라 훈련에 적합한 알고리즘을 선택할 수 있습니다. 다음 코드는 로지스틱 회귀 알고리즘을 사용하여 모델을 훈련하는 예를 보여줍니다.
from sklearn.linear_model import LogisticRegression

로지스틱 회귀 모델 객체 생성

model = LogisticRegression()

훈련 세트를 사용하여 모델 훈련

model.fit(X_train , y_train)

7. 모델 성능 평가
학습이 완료된 후에는 모델 성능을 평가해야 합니다. scikit-learn은 모델의 정확성과 안정성을 판단하는 데 도움이 되는 다양한 평가 지표를 제공합니다. 다음 코드는 정확도를 사용하여 모델 성능을 평가하는 방법을 보여줍니다.
from sklearn.metrics import Accuracy_score

테스트 세트를 사용하여 예측

y_pred = model.predict(X_test)

정확도 계산

accuracy = Accuracy_score(y_test , y_pred)

8. 모델 튜닝
평가 결과를 바탕으로 모델을 튜닝하여 모델의 성능을 향상시킬 수 있습니다. scikit-learn은 그리드 검색 및 기타 방법을 통해 최상의 모델 매개변수를 찾을 수 있는 매개변수 튜닝 기능을 제공합니다. 다음 코드는 그리드 검색을 사용하여 모델 매개변수를 조정하는 방법을 보여줍니다.
from sklearn.model_selection import GridSearchCV

Define 매개변수 그리드

param_grid = {'C': [0.01, 0.1, 1, 10], 'penalty' : [ 'l1', 'l2']}

GridSearchCV 객체 생성

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)

그리드 검색을 위한 훈련 세트 사용

grid_search.fit(X_train , y_train )

최고의 모델 매개변수 가져오기

best_params =grid_search.best_params_

9. 예측을 위해 모델을 사용하세요
모델의 학습 및 튜닝을 완료한 후 모델을 사용하여 예측을 할 수 있습니다. 다음 코드는 훈련된 모델을 사용하여 새 데이터에 대한 예측을 수행하는 방법을 보여줍니다.

최고의 모델 매개변수를 사용하여 새 모델 개체 만들기

best_model = LogisticRegression(**best_params)

모델 훈련에 전체 데이터 세트 사용

best_model .fit(normalized_data, iris.target)

새 데이터 준비

new_data = [[5.1, 3.5, 1.4, 0.2], [6.7, 3.1, 4.4, 1.4], [6.5, 3.0, 5.2, 2.0]]

새 데이터에 대한 예측

predictions = best_model.predict(new_data)

결론:
이 문서에서는 기계 학습을 위해 Python 3.x에서 scikit-learn 모듈을 사용하는 방법을 설명합니다. 모듈 설치, 모듈 가져오기, 데이터 세트 로드, 데이터 전처리, 데이터 세트 분할, 모델 학습, 모델 성능 평가, 모델 튜닝, 예측용 모델 사용을 통해 독자는 scikit-learn 모듈을 적용하여 머신러닝 모델을 구축하고 배포하는 방법을 배울 수 있습니다. 연습과 지속적인 학습을 통해 우리는 기계 학습 분야를 더욱 깊이 탐구하고 실제 적용에서 더 나은 결과를 얻을 수 있습니다.

위 내용은 Python 3.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.