이 글에서는 예측 함수의 차이점과 그 용도에 대해 설명합니다.
기계 학습에서는 예측 및 예측_proba, 예측_log_proba 및 결정_함수 방법을 사용하여 훈련된 모델을 기반으로 예측을 수행합니다.
예측 방법을 사용하여 이진 분류 또는 다변량 분류 예측을 수행하고 예측 레이블을 출력합니다. 예를 들어 고객이 제품을 구매할지 여부를 예측하기 위해 로지스틱 회귀 모델을 학습한 경우 예측 방법을 사용하여 신규 고객이 제품을 구매할지 여부를 예측할 수 있습니다.
우리는 scikit-learn의 유방암 데이터세트를 사용할 것입니다. 이 데이터 세트에는 종양 관찰 내용과 종양이 악성인지 양성인지에 대한 해당 레이블이 포함되어 있습니다.
import numpy as npfrom sklearn.svm import SVCfrom sklearn.preprocessing import StandardScalerfrom sklearn.pipeline import make_pipelineimport matplotlib.pyplot as pltfrom sklearn.datasets import load_breast_cancer# 加载数据集dataset = load_breast_cancer(as_frame=True)# 创建特征和目标X = dataset['data']y = dataset['target']# 将数据集分割成训练集和测试集from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y , test_size=0.25, random_state=0)# 我们创建一个简单的管道来规范数据并使用`SVC`分类器训练模型svc_clf = make_pipeline(StandardScaler(),SVC(max_iter=1000, probability=True))svc_clf.fit(X_train, y_train)
# 我们正在预测X_test的第一个条目print(svc_clf.predict(X_test[:1]))
# 预测X_test的第一个条目属于哪一类[0]
predict_proba 함수를 사용하여 각 카테고리에 대한 확률 예측을 수행하고 각 카테고리 레이블의 가능한 확률 추정치를 반환합니다. 이항 또는 다변량 분류 문제에서 이 접근 방식은 일반적으로 가능한 각 결과의 확률을 결정하는 데 사용됩니다. 예를 들어, 동물 이미지를 고양이, 개, 말로 분류하도록 모델을 훈련한 경우 예측_proba 방법을 사용하여 각 범주 레이블에 대한 확률 추정치를 얻을 수 있습니다.
print(svc_clf.predict_proba(X_test[:1]))
[[0.99848307 0.00151693]]
예측_log_proba 방법은 예측_proba와 유사하지만 원시 확률 대신 확률 추정의 로그를 반환합니다. 이는 수치적 언더플로 또는 오버플로 문제를 피할 수 있기 때문에 매우 작거나 매우 큰 확률 값을 처리하는 데 매우 유용합니다.
print(svc_clf.predict_log_proba(X_test[:1]))rrree
선형 이진 분류 모델은 Decision_function 방법을 활용할 수 있습니다. 이는 해당 클래스 레이블을 추론하는 데 사용할 수 있는 각 입력 데이터 포인트에 대한 점수를 생성합니다. 데이터 포인트를 긍정적 또는 부정적으로 분류하는 임계값은 애플리케이션 또는 도메인 지식을 기반으로 설정할 수 있습니다.
[[-1.51808474e-03 -6.49106473e+00]]
print(svc_clf.decision_function(X_test[:1]))
참고: 일부 분류기의 예측 방법은 불완전하거나 함수에 액세스하려면 추가 매개변수가 필요할 수 있습니다. 예: SVC는 확률 예측을 사용하려면 확률 매개변수를 True로 설정해야 합니다.
위 내용은 Scikit-Learn을 사용하여 기계 학습 예측 방법을 빠르게 익히십시오.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!