서문
ROC(Receiver Operating Characteristic) 곡선과 AUC는 이진 분류기의 품질을 평가하는 데 자주 사용됩니다. 이 기사에서는 먼저 ROC와 AUC를 간략하게 소개한 다음 예제를 사용하여 Python에서 ROC 곡선을 만들고 AUC를 계산하는 방법을 보여줍니다.
AUC 소개
AUC(Area Under Curve)는 머신러닝 이진 분류 모델에서 매우 일반적으로 사용되는 평가 지표입니다. F1-Score는 프로젝트 불균형에 대해 더 큰 허용 범위를 갖기 때문에 현재 일반적인 기계 학습 라이브러리(예: scikit-learn)는 일반적으로 이 지표의 계산을 통합하지만 때로는 모델이 별도로 작성되거나 자체적으로 작성됩니다. 훈련 모델의 품질을 평가하려면 AUC 계산 모듈을 직접 구축해야 합니다. 정보를 검색할 때 이 기사에서는 libsvm-tools에 AUC 계산이 매우 이해하기 쉽다는 것을 발견하여 향후를 위해 선택했습니다. 사용.
AUC 계산
AUC 계산은 다음 세 단계로 구분됩니다.
1. 계산 데이터 준비 모델 훈련 중에 훈련 세트만 있으면 이를 계산하기 위해 일반적으로 교차 검증을 사용합니다. 일반적으로 예측 점수와 대상 범주가 필요합니다(참고 예측 범주가 아닌 대상 범주입니다)
2. 가로(X: False Positive Rate) 및 세로(Y: True Positive Rate)를 가져옵니다. Rate) 임계점 분할에 따른 점
3, 좌표점을 곡선으로 연결한 후 곡선 아래의 면적을 계산하는데, 이것이 AUC
의 값이다. 파이썬 코드 직접 입력
#! -*- coding=utf-8 -*- import pylab as pl from math import log,exp,sqrt evaluate_result="you file path" db = [] #[score,nonclk,clk] pos, neg = 0, 0 with open(evaluate_result,'r') as fs: for line in fs: nonclk,clk,score = line.strip().split('\t') nonclk = int(nonclk) clk = int(clk) score = float(score) db.append([score,nonclk,clk]) pos += clk neg += nonclk db = sorted(db, key=lambda x:x[0], reverse=True) #计算ROC坐标点 xy_arr = [] tp, fp = 0., 0. for i in range(len(db)): tp += db[i][2] fp += db[i][1] xy_arr.append([fp/neg,tp/pos]) #计算曲线下面积 auc = 0. prev_x = 0 for x,y in xy_arr: if x != prev_x: auc += (x - prev_x) * y prev_x = x print "the auc is %s."%auc x = [_v[0] for _v in xy_arr] y = [_v[1] for _v in xy_arr] pl.title("ROC curve of %s (AUC = %.4f)" % ('svm',auc)) pl.xlabel("False Positive Rate") pl.ylabel("True Positive Rate") pl.plot(x, y)# use pylab to plot x and y pl.show()# show the plot on the screen
입력 데이터 세트는 svm 예측 결과를 참조할 수 있습니다
형식은 다음과 같습니다.
nonclk \t clk \t score
그중:
1. nonclick: 클릭하지 않은 데이터 , 이는 음성 샘플의 개수로 간주될 수 있음
2. clk: 클릭 이 숫자는 양성 샘플의 개수로 간주될 수 있음
3. 점수: 예상됨 점수를 그룹화하여 양성 및 음성 샘플의 사전 통계를 수행하면 AUC 계산량을 줄일 수 있습니다.
작업 결과는 다음과 같습니다.
이 머신에 pylab이 설치되지 않은 경우 종속성 및 그리기 부분에 직접 주석을 달 수 있습니다
참고
위에 게시된 코드는 다음과 같습니다.
1. 두 카테고리의 결과만 계산 가능합니다(두 카테고리의 레이블은 부담 없이 처리 가능)
2. 위 코드의 각 점수에는 임계값이 있습니다. 실제로 이 효율성은 상당히 낮습니다. 샘플을 샘플링하거나 가로축 좌표를 계산할 때 동일한 계산을 수행할 수 있습니다.
자세한 내용은 다음과 같습니다. Python 그리기 ROC 곡선 및 AUC 값 계산과 관련된 기사는 PHP 중국어 웹사이트를 주목하세요!