Python 2.x에서 머신러닝을 위해 scikit-learn 모듈을 사용하는 방법
소개:
머신러닝은 컴퓨터가 데이터로부터 학습하고 자체 성능을 향상할 수 있도록 하는 방법을 연구하는 학문입니다. scikit-learn은 기계 학습을 더욱 간단하고 효율적으로 만들기 위한 다양한 기계 학습 알고리즘과 도구를 제공하는 Python 기반 기계 학습 라이브러리입니다.
이 글에서는 Python 2.x에서 머신러닝을 위한 scikit-learn 모듈을 사용하는 방법을 소개하고 샘플 코드를 제공합니다.
1. scikit-learn 모듈을 설치합니다
먼저 Python 2.x 버전이 설치되어 있는지 확인해야 합니다. 그런 다음 pip 명령을 통해 scikit-learn 모듈을 설치할 수 있습니다.
pip install -U scikit-learn
설치가 완료되면 머신러닝에 scikit-learn 모듈을 사용할 수 있습니다.
2. 데이터 세트 로드
머신 러닝에서는 일반적으로 데이터 세트를 로드하고 처리해야 합니다. scikit-learn은 직접 사용할 수 있는 다양한 내장 데이터 세트를 제공합니다. 다음은 시연을 위한 예시로 붓꽃 데이터 세트를 사용합니다.
from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target
위 코드에서는 load_iris()
함수를 사용하여 붓꽃 데이터 세트를 로드한 다음 입력 데이터를 X
변수에 설정된 데이터는 y
변수에 해당 라벨을 저장합니다. load_iris()
函数加载了鸢尾花数据集,然后将数据集中的输入数据存储在变量X
中,将对应的标签存储在变量y
中。
三、划分数据集
在训练机器学习模型之前,我们需要将数据集划分为训练集和测试集。scikit-learn提供了train_test_split
函数来实现数据集的划分。
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
上述代码中,我们将数据集划分为训练集和测试集,其中test_size=0.2
表示测试集的比例为20%,random_state=42
表示随机种子,以确保每次划分结果的一致性。
四、选择模型
在机器学习中,我们可以选择不同的模型来训练我们的数据集。在scikit-learn中,每个模型都有对应的类,我们可以通过创建模型类的实例来选择不同的模型。
以支持向量机(SVM)为例,使用SVC
类来创建一个SVM模型的实例:
from sklearn.svm import SVC model = SVC()
五、训练模型
一旦选择了模型,我们就可以使用训练数据集对模型进行训练。
model.fit(X_train, y_train)
上述代码中,我们使用fit
方法对模型进行训练,将训练数据集X_train
和对应的标签y_train
作为输入。
六、模型评估
在训练完成后,我们需要使用测试数据集来评估模型的性能。
score = model.score(X_test, y_test) print("模型准确率:", score)
上述代码中,我们使用score
方法计算模型在测试数据集上的准确率,并输出评估结果。
七、模型预测
最后,我们可以使用训练好的模型进行预测。
y_pred = model.predict(X_test) print("预测结果:", y_pred)
上述代码中,我们使用predict
머신러닝 모델을 훈련하기 전에 데이터 세트를 훈련 세트와 테스트 세트로 나누어야 합니다. scikit-learn은 데이터 세트를 분할하는 train_test_split
함수를 제공합니다.
rrreee
test_size=0.2
는 테스트 세트의 비율이 20%임을 의미하고 random_state =42
는 매번 결과의 일관성을 보장하기 위한 무작위 시드를 의미합니다. 4. 모델 선택🎜 머신러닝에서는 데이터 세트를 훈련하기 위해 다양한 모델을 선택할 수 있습니다. scikit-learn에서는 각 모델에 해당 클래스가 있으며, 모델 클래스의 인스턴스를 생성하여 다양한 모델을 선택할 수 있습니다. 🎜🎜SVM(지원 벡터 머신)을 예로 들어 SVC
클래스를 사용하여 SVM 모델의 인스턴스를 생성합니다. 🎜rrreee🎜 5. 훈련 모델 🎜모델이 선택되면 다음을 사용할 수 있습니다. 훈련 데이터 세트 모델을 훈련시킵니다. 🎜rrreee🎜위 코드에서는 fit
메서드를 사용하여 모델을 훈련하고 훈련 데이터 세트 X_train
와 해당 라벨 y_train
을 사용합니다. 입력으로. 🎜🎜6. 모델 평가🎜훈련이 완료된 후에는 테스트 데이터 세트를 사용하여 모델의 성능을 평가해야 합니다. 🎜rrreee🎜위 코드에서는 score
메서드를 사용하여 테스트 데이터 세트에 대한 모델의 정확도를 계산하고 평가 결과를 출력합니다. 🎜🎜7. 모델 예측🎜마지막으로 훈련된 모델을 사용하여 예측할 수 있습니다. 🎜rrreee🎜위 코드에서는 predict
메서드를 사용하여 테스트 데이터 세트를 예측하고 예측 결과를 출력합니다. 🎜🎜요약: 🎜이 글의 소개를 통해 우리는 Python 2.x에서 머신러닝을 위한 scikit-learn 모듈을 사용하는 방법을 배웠습니다. 데이터 세트 로드, 데이터 세트 분할, 모델 선택, 모델 학습, 모델 평가 및 모델 예측의 기본 단계를 학습하고 해당 코드 예제를 제공했습니다. 🎜🎜머신러닝을 배우고 scikit-learn 모듈을 사용할 때 이 글이 도움이 되기를 바랍니다. 학업에 진전을 이루고 기계 학습 기술을 습득하시기 바랍니다! 🎜위 내용은 Python 2.x에서 기계 학습을 위해 scikit-learn 모듈을 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!