>  기사  >  백엔드 개발  >  Python 2.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법

Python 2.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법

WBOY
WBOY원래의
2023-07-30 14:09:22842검색

Python 2.x에서 머신러닝을 위해 scikit-learn 모듈을 사용하는 방법

소개:
머신러닝은 컴퓨터가 데이터로부터 학습하고 자체 성능을 향상할 수 있도록 하는 방법을 연구하는 학문입니다. scikit-learn은 기계 학습을 더욱 간단하고 효율적으로 만들기 위한 다양한 기계 학습 알고리즘과 도구를 제공하는 Python 기반 기계 학습 라이브러리입니다.

이 글에서는 Python 2.x에서 머신러닝을 위한 scikit-learn 모듈을 사용하는 방법을 소개하고 샘플 코드를 제공합니다.

1. scikit-learn 모듈을 설치합니다
먼저 Python 2.x 버전이 설치되어 있는지 확인해야 합니다. 그런 다음 pip 명령을 통해 scikit-learn 모듈을 설치할 수 있습니다.

pip install -U scikit-learn

설치가 완료되면 머신러닝에 scikit-learn 모듈을 사용할 수 있습니다.

2. 데이터 세트 로드
머신 러닝에서는 일반적으로 데이터 세트를 로드하고 처리해야 합니다. scikit-learn은 직접 사용할 수 있는 다양한 내장 데이터 세트를 제공합니다. 다음은 시연을 위한 예시로 붓꽃 데이터 세트를 사용합니다.

from sklearn.datasets import load_iris
iris = load_iris()
X, y = iris.data, iris.target

위 코드에서는 load_iris() 함수를 사용하여 붓꽃 ​​데이터 세트를 로드한 다음 입력 데이터를 X 변수에 설정된 데이터는 y 변수에 해당 라벨을 저장합니다. load_iris()函数加载了鸢尾花数据集,然后将数据集中的输入数据存储在变量X中,将对应的标签存储在变量y中。

三、划分数据集
在训练机器学习模型之前,我们需要将数据集划分为训练集和测试集。scikit-learn提供了train_test_split函数来实现数据集的划分。

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

上述代码中,我们将数据集划分为训练集和测试集,其中test_size=0.2表示测试集的比例为20%,random_state=42表示随机种子,以确保每次划分结果的一致性。

四、选择模型
在机器学习中,我们可以选择不同的模型来训练我们的数据集。在scikit-learn中,每个模型都有对应的类,我们可以通过创建模型类的实例来选择不同的模型。

以支持向量机(SVM)为例,使用SVC类来创建一个SVM模型的实例:

from sklearn.svm import SVC
model = SVC()

五、训练模型
一旦选择了模型,我们就可以使用训练数据集对模型进行训练。

model.fit(X_train, y_train)

上述代码中,我们使用fit方法对模型进行训练,将训练数据集X_train和对应的标签y_train作为输入。

六、模型评估
在训练完成后,我们需要使用测试数据集来评估模型的性能。

score = model.score(X_test, y_test)
print("模型准确率:", score)

上述代码中,我们使用score方法计算模型在测试数据集上的准确率,并输出评估结果。

七、模型预测
最后,我们可以使用训练好的模型进行预测。

y_pred = model.predict(X_test)
print("预测结果:", y_pred)

上述代码中,我们使用predict

3. 데이터 세트 나누기

머신러닝 모델을 훈련하기 전에 데이터 세트를 훈련 세트와 테스트 세트로 나누어야 합니다. scikit-learn은 데이터 세트를 분할하는 train_test_split 함수를 제공합니다.
rrreee

위 코드에서는 데이터 세트를 훈련 세트와 테스트 세트로 나눕니다. 여기서 test_size=0.2는 테스트 세트의 비율이 20%임을 의미하고 random_state =42는 매번 결과의 일관성을 보장하기 위한 무작위 시드를 의미합니다.

4. 모델 선택🎜 머신러닝에서는 데이터 세트를 훈련하기 위해 다양한 모델을 선택할 수 있습니다. scikit-learn에서는 각 모델에 해당 클래스가 있으며, 모델 클래스의 인스턴스를 생성하여 다양한 모델을 선택할 수 있습니다. 🎜🎜SVM(지원 벡터 머신)을 예로 들어 SVC 클래스를 사용하여 SVM 모델의 인스턴스를 생성합니다. 🎜rrreee🎜 5. 훈련 모델 🎜모델이 선택되면 다음을 사용할 수 있습니다. 훈련 데이터 세트 모델을 훈련시킵니다. 🎜rrreee🎜위 코드에서는 fit 메서드를 사용하여 모델을 훈련하고 훈련 데이터 세트 X_train와 해당 라벨 y_train을 사용합니다. 입력으로. 🎜🎜6. 모델 평가🎜훈련이 완료된 후에는 테스트 데이터 세트를 사용하여 모델의 성능을 평가해야 합니다. 🎜rrreee🎜위 코드에서는 score 메서드를 사용하여 테스트 데이터 세트에 대한 모델의 정확도를 계산하고 평가 결과를 출력합니다. 🎜🎜7. 모델 예측🎜마지막으로 훈련된 모델을 사용하여 예측할 수 있습니다. 🎜rrreee🎜위 코드에서는 predict 메서드를 사용하여 테스트 데이터 세트를 예측하고 예측 결과를 출력합니다. 🎜🎜요약: 🎜이 글의 소개를 통해 우리는 Python 2.x에서 머신러닝을 위한 scikit-learn 모듈을 사용하는 방법을 배웠습니다. 데이터 세트 로드, 데이터 세트 분할, 모델 선택, 모델 학습, 모델 평가 및 모델 예측의 기본 단계를 학습하고 해당 코드 예제를 제공했습니다. 🎜🎜머신러닝을 배우고 scikit-learn 모듈을 사용할 때 이 글이 도움이 되기를 바랍니다. 학업에 진전을 이루고 기계 학습 기술을 습득하시기 바랍니다! 🎜

위 내용은 Python 2.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.