Python은 널리 사용되는 프로그래밍 언어이며 강력한 데이터 분석 및 시각화 기능으로 인해 데이터 과학자 및 기계 학습 엔지니어가 선호하는 도구 중 하나입니다. 이러한 응용 프로그램에서 잔차 분석은 모델 정확도를 평가하고 모델 편향을 식별하는 데 사용되는 일반적인 기술입니다. 이 기사에서는 Python에서 잔차 분석 기술을 사용하는 여러 가지 방법을 소개합니다.
Python의 잔차 분석 기술을 소개하기 전에 먼저 잔차가 무엇인지 이해해 보겠습니다. 통계에서 잔차는 실제 관측값과 예측값 간의 차이 또는 오류입니다. 모델을 구축한 후 각 관찰에 대한 잔차를 계산할 수 있으며, 이는 모델이 미래 결과를 정확하게 예측할 수 있는지 평가하는 데 도움이 됩니다.
Python에서는 Pandas 및 NumPy와 같은 라이브러리를 사용하여 잔차를 계산할 수 있습니다. 다음 코드를 참조하세요.
import pandas as pd import numpy as np # 创建数据集 y_true = pd.Series([1, 2, 3, 4, 5]) y_pred = pd.Series([1.2, 2.1, 2.8, 3.7, 4.5]) # 计算残差 residuals = y_true - y_pred print(residuals)
위 코드는 참값과 예측값을 각각 나타내는 두 개의 Pandas Series 객체를 생성합니다. 그런 다음 빼기를 통해 잔차를 계산하고 인쇄합니다.
잔차 산점도는 모델의 오류 분포를 시각화하는 데 일반적으로 사용되는 잔차 분석 도구입니다. 각 관측치의 잔차 값과 해당 관측치의 예측 값 사이의 관계를 보여줍니다.
Python에서는 Matplotlib 라이브러리의 Scatter() 함수를 사용하여 산점도를 만들 수 있습니다. 다음 코드를 참고하세요:
import matplotlib.pyplot as plt # 绘制残差散点图 plt.scatter(y_pred, residuals) plt.title('Residual plot') plt.ylabel('Residuals') plt.xlabel('Fitted values') plt.axhline(y=0, color='r', linestyle='-') plt.show()
위 코드는 산점도를 생성하기 위해 분산() 함수를 사용합니다. 가로축은 예측값을 나타내고, 세로축은 잔차를 나타냅니다. 그 중 axhline() 함수를 사용하여 그래프에 수평선을 그려 예측값과 잔차 간의 분포가 무작위인지 판단하는 데 도움을 줍니다. 잔차값이 0 주위에 무작위로 분포되어 있으면 모델이 정확하다고 간주할 수 있습니다.
산점도 외에도 잔차 히스토그램은 모델 오류 분포가 정규 분포를 따르는지 평가하기 위한 효과적인 잔차 분석 도구이기도 합니다. 정규분포의 경우 잔차값이 0을 중심으로 무작위로 분포해야 하므로 히스토그램을 사용하여 잔차의 분포를 표시할 수 있습니다.
Python에서는 Matplotlib 라이브러리의 hist() 함수를 사용하여 히스토그램을 만들 수 있습니다. 다음 코드를 참고하세요:
# 绘制残差直方图 plt.hist(residuals, bins=10) plt.title('Residuals distribution') plt.xlabel('Residuals') plt.ylabel('Frequency') plt.show()
위 코드는 hist() 함수를 사용하여 히스토그램을 그리고 관련 라벨과 제목을 설정합니다. 여기서는 잔차 분포를 더 잘 표시하기 위해 bins 매개변수를 설정하여 가로 축의 세분성을 조정합니다.
Q-Q 플롯은 잔차가 정규 분포를 따르는지 테스트하는 데 사용되는 도구입니다. 이는 표본 데이터와 표준 정규 분포 간의 분위수를 비교하여 구성됩니다. 잔차가 정규 분포를 따르는 경우 데이터 점은 Q-Q 플롯에서 직선에 있어야 합니다. 데이터 포인트가 이 직선에서 벗어나면 잔차가 정규 분포를 따르지 않는다고 가정할 수 있습니다.
Python에서는 Scipy 라이브러리의 probplot() 함수를 사용하여 Q-Q 플롯을 그릴 수 있습니다. 다음 코드를 참고하세요:
from scipy.stats import probplot # 绘制Q-Q图 probplot(residuals, dist='norm', plot=plt) plt.title('Q-Q plot') plt.show()
위 코드는 probplot() 함수를 사용하여 Q-Q 플롯을 생성하고, dist 매개변수를 'norm'으로 설정합니다. 이는 표준 정규 분포를 비교 벤치마크로 사용한다는 의미입니다. 데이터 포인트가 직선에서 벗어나면 표시된 그래프를 검토하여 잔차가 정규 분포를 따르는지 확인할 수 있습니다.
요약
이 글에서는 Python의 잔차 분석 기법을 소개하고 잔차 산점도, 잔차 히스토그램, Q-Q 플롯과 같은 여러 주요 도구를 소개했습니다. 이러한 기술은 일반적으로 모델 정확도를 평가하고 모델 편향을 식별하는 데 사용됩니다. 이러한 기술에 능숙하면 데이터를 더 잘 이해하고 분석하는 데 도움이 될 수 있으며 기계 학습 모델의 개선 및 조정을 위한 더 나은 제안을 제공할 수 있습니다.
위 내용은 Python의 잔차 분석 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!