분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현

零到壹度

Apr 16, 2018 am 11:11 AM

색인

이 글의 내용은 분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현에 대한 내용입니다. 이제 필요한 친구들이 참고할 수 있도록 공유하겠습니다.

1. 개념

성과 측정(평가) 지표는 크게 두 가지 범주로 나뉜다.
1) 분류 평가 지표(분류), 주로 분석, 이산, 정수. 구체적인 지표로는 정확도(accuracy), 정밀도(precision), 리콜(recall), F값, P-R 곡선, ROC 곡선, AUC 등이 있습니다.
2) 회귀평가지수(regression)는 주로 정수와 실수의 관계를 분석합니다. 구체적인 지표로는 explianed_variance_score, 평균 절대 오차 MAE(mean_absolute_error), 평균 제곱 오차 MSE(mean-squared_error), 평균 제곱근 차이 RMSE, 교차 엔트로피 손실(Log 손실, 교차 엔트로피 손실), R 제곱 값(결정 계수)이 있습니다. , r2_score).

1.1. 전제

긍정적인 범주와 부정적인 범주만 있다고 가정합니다. 일반적으로 우려되는 범주는 긍정적인 범주이고 다른 범주는 부정적인 범주입니다. 따라서 다중 클래스 문제도 두 가지로 요약될 수 있습니다. 카테고리 )
혼동행렬은 다음과 같습니다

실제 카테고리	예측 카테고리
	긍정적	부정적	summary
긍정적	TP	FN	P(실제로는 긍정)
negative	FP	TN	N(실제로는 부정)

AB 모드: 첫 번째는 예측 결과가 right 또는 false , 두 번째 항목은 예측된 카테고리를 나타냅니다. 예를 들어 TP는 참 긍정(True Positive)을 의미합니다. 즉, 올바른 예측은 긍정 클래스입니다. FN은 거짓 부정(False Negative)을 의미합니다. 즉, 잘못된 예측은 부정 클래스입니다.

2. 평가 지표(성과 측정)

2.1. 분류 평가 지표

2.1.1 가치 지표 - 정확도, 정밀도, 재현율, F 값

을 의미합니다.

측정	정확도(정확도)	정밀도 ( Precision)	Recall(Recall)	F value
Definition	총 샘플 수 대비 정확하게 분류된 샘플 수의 비율(스팸으로 예측되는 실제 스팸 문자 메시지의 비율)	결정 as 긍정 사례 수에 대한 참 긍정 사례 수의 비율(올바르게 분류되어 발견된 모든 실제 스팸 문자 메시지의 비율)	전체 긍정 사례 수에 대한 참 긍정 사례 수의 비율	정확도 조화 평균 F-score
(재현율 포함)은	accuracy=	정밀도=	회상=	F - 점수 =

1. 정밀도는 정밀도율이라고도 하고, 재현율은 재현율이라고도 합니다
2. 더 일반적으로 사용되는 것은 F1,

python3.6 코드 구현:

#调用sklearn库中的指标求解from sklearn import metricsfrom sklearn.metrics import precision_recall_curvefrom sklearn.metrics import average_precision_scorefrom sklearn.metrics import accuracy_score#给出分类结果y_pred = [0, 1, 0, 0]
y_true = [0, 1, 1, 1]
print("accuracy_score:", accuracy_score(y_true, y_pred))
print("precision_score:", metrics.precision_score(y_true, y_pred))
print("recall_score:", metrics.recall_score(y_true, y_pred))
print("f1_score:", metrics.f1_score(y_true, y_pred))
print("f0.5_score:", metrics.fbeta_score(y_true, y_pred, beta=0.5))
print("f2_score:", metrics.fbeta_score(y_true, y_pred, beta=2.0))

2.1.2 상관 곡선-P-R 곡선, ROC 곡선 및 AUC 값

1) P-R curve
단계:
1. "점수" 값을 높은 것에서 낮은 것으로 정렬하고 이를 임계값으로 순서대로 사용합니다.
2. 각 임계값에 대해 이 임계값보다 크거나 같은 "점수" 값을 가진 샘플을 테스트합니다. 긍정적인 사례로 간주되고 나머지는 부정적인 사례로 간주됩니다. 따라서 일련의 예측 수치가 형성됩니다.
eg.
분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현
0.9를 임계값으로 설정하면 첫 번째 테스트 샘플은 긍정적인 예이고 2, 3, 4, 5는 부정적인 예입니다.
우리는

0.10.8+ 0.7+0.7+0.65 = 2.85 Python은 의사 코드를 구현합니다

#precision和recall的求法如上
#主要介绍一下python画图的库
import matplotlib.pyplot ad plt
#主要用于矩阵运算的库
import numpy as np#导入iris数据及训练见前一博文
...
#加入800个噪声特征，增加图像的复杂度
#将150*800的噪声特征矩阵与150*4的鸢尾花数据集列合并
X = np.c_[X, np.random.RandomState(0).randn(n_samples, 200*n_features)]
#计算precision，recall得到数组
for i in range(n_classes):
    #计算三类鸢尾花的评价指标， _作为临时的名称使用
    precision[i], recall[i], _ = precision_recall_curve(y_test[:, i], y_score[:,i])#plot作图plt.clf()
for i in range(n_classes):
    plt.plot(recall[i], precision[i])
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel("Recall")
plt.ylabel("Precision")
plt.show()

	긍정적인 것으로 예측합니다. 예를 들어 부정적인 예로 예측 된 예는	toTalSpositive 사례 (점수는 임계 값보다 큽니다)	0.9
1		1INGITATION CASE (점수는 임계 값보다 작음)	0.2+0.3+0.3+0.35 = 1.15
4		정밀도=
recall= 임계값 아래 부분은 음의 예로 처리되며 예측된 음의 예의 값은 올바른 예측 값입니다. 즉, 양의 예인 경우 음의 예인 경우 TP가 사용됩니다. TN이 취해지며 둘 다 예측 점수입니다.

위 코드를 완성하면 붓꽃 데이터 세트의 P-R 곡선을 얻습니다

2) ROC 곡선
가로축: 거짓양성률 fp 비율 = FP/N

세로축: True 양성률 tp 비율 = TP / N

단계:
1. "점수" 값을 높은 값에서 낮은 값으로 정렬하여 차례로 임계값으로 사용합니다. 분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현 2. 각 임계값에 대해 더 큰 "점수" 값으로 샘플을 테스트합니다. 이 임계값 이상이면 긍정적인 예로 간주되고, 다른 것들은 부정적인 예로 간주됩니다. 따라서 일련의 예측 수치가 형성됩니다.

P-R 곡선 계산과 유사하므로 자세히 설명하지 않겠습니다
붓꽃 데이터 세트의 ROC 이미지는

AUC(Area Under Curve)는 ROC 곡선 아래의 면적으로 정의됩니다

AUC 값은 분류기에 대한 전체 수치 값을 제공합니다. 일반적으로 AUC가 클수록 분류기가 우수하며 값은 [0, 1]

2.2입니다. 회귀 평가 지수
1) 해석 가능한 분산 점수

2) 평균 절대 오차 MAE(Mean Absolute Error)

3) MSE(평균 제곱 오차)
분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현

4) 물류 회귀 손실

5) 일관성 평가 - 피어슨 상관 계수 방법

파이썬 코드 구현

from sklearn.metrics import log_loss
log_loss(y_true, y_pred)from scipy.stats import pearsonr
pearsonr(rater1, rater2)from sklearn.metrics import cohen_kappa_score
cohen_kappa_score(rater1, rater2)

위 내용은 분류 평가 지표와 회귀 평가 지표에 대한 자세한 설명과 Python 코드 구현의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

어레이는 파이썬으로 과학 컴퓨팅에 어떻게 사용됩니까?Apr 25, 2025 am 12:28 AM

Arraysinpython, 특히 비밀 복구를위한 ArecrucialInscientificcomputing.1) theaRearedFornumericalOperations, DataAnalysis 및 MachinELearning.2) Numpy'SimplementationIncensuressuressurations thanpythonlists.3) arraysenablequick

같은 시스템에서 다른 파이썬 버전을 어떻게 처리합니까?Apr 25, 2025 am 12:24 AM

Pyenv, Venv 및 Anaconda를 사용하여 다양한 Python 버전을 관리 할 수 있습니다. 1) PYENV를 사용하여 여러 Python 버전을 관리합니다. Pyenv를 설치하고 글로벌 및 로컬 버전을 설정하십시오. 2) VENV를 사용하여 프로젝트 종속성을 분리하기 위해 가상 환경을 만듭니다. 3) Anaconda를 사용하여 데이터 과학 프로젝트에서 Python 버전을 관리하십시오. 4) 시스템 수준의 작업을 위해 시스템 파이썬을 유지하십시오. 이러한 도구와 전략을 통해 다양한 버전의 Python을 효과적으로 관리하여 프로젝트의 원활한 실행을 보장 할 수 있습니다.

표준 파이썬 어레이를 통해 Numpy Array를 사용하면 몇 가지 장점은 무엇입니까?Apr 25, 2025 am 12:21 AM

Numpyarrayshaveseveraladvantagesstandardpythonarrays : 1) thearemuchfasterduetoc 기반 간증, 2) thearemorememory-refficient, 특히 withlargedatasets 및 3) wepferoptizedformationsformationstaticaloperations, 만들기, 만들기

어레이의 균질 한 특성은 성능에 어떤 영향을 미칩니 까?Apr 25, 2025 am 12:13 AM

어레이의 균질성이 성능에 미치는 영향은 이중입니다. 1) 균질성은 컴파일러가 메모리 액세스를 최적화하고 성능을 향상시킬 수 있습니다. 2) 그러나 유형 다양성을 제한하여 비 효율성으로 이어질 수 있습니다. 요컨대, 올바른 데이터 구조를 선택하는 것이 중요합니다.

실행 파이썬 스크립트를 작성하기위한 모범 사례는 무엇입니까?Apr 25, 2025 am 12:11 AM

tocraftexecutablepythonscripts, 다음과 같은 비스트 프랙티스를 따르십시오 : 1) 1) addashebangline (#!/usr/bin/envpython3) tomakethescriptexecutable.2) setpermissionswithchmod xyour_script.py.3) organtionewithlarstringanduseifname == "__"

Numpy 배열은 배열 모듈을 사용하여 생성 된 배열과 어떻게 다릅니 까?Apr 24, 2025 pm 03:53 PM

numpyarraysarebetterfornumericaloperations 및 multi-dimensionaldata, mumemer-efficientArrays

Numpy Array의 사용은 Python에서 어레이 모듈 어레이를 사용하는 것과 어떻게 비교됩니까?Apr 24, 2025 pm 03:49 PM

numpyarraysarebetterforheavynumericalcomputing, whilearraymoduleisiMoresuily-sportainedprojectswithsimpledatatypes.1) numpyarraysofferversatively 및 formanceforgedatasets 및 complexoperations.2) Thearraymoduleisweighit 및 ep

CTYPES 모듈은 파이썬의 어레이와 어떤 관련이 있습니까?Apr 24, 2025 pm 03:45 PM

ctypesallowscreatingandmanipulatingC-stylearraysinPython.1)UsectypestointerfacewithClibrariesforperformance.2)CreateC-stylearraysfornumericalcomputations.3)PassarraystoCfunctionsforefficientoperations.However,becautiousofmemorymanagement,performanceo

See all articles