Python は広く使用されているプログラミング言語であり、その強力なデータ分析および視覚化機能により、データ サイエンティストや機械学習エンジニアにとって推奨ツールの 1 つとなっています。これらのアプリケーションでは、残差分析がモデルの精度を評価し、モデルのバイアスを特定するために使用される一般的な手法です。この記事では、Python で残差分析テクニックを使用するいくつかの方法を紹介します。
Python で残差分析手法を紹介する前に、まず残差とは何かを理解しましょう。統計学における残差は、実際の観測値と予測値の差、つまり誤差です。モデルを構築した後、各観測値の残差を計算できます。これは、モデルが将来の結果を正確に予測できるかどうかを評価するのに役立ちます。
Python では、Pandas や NumPy などのライブラリを使用して残差を計算できます。次のコードを参照してください。
import pandas as pd import numpy as np # 创建数据集 y_true = pd.Series([1, 2, 3, 4, 5]) y_pred = pd.Series([1.2, 2.1, 2.8, 3.7, 4.5]) # 计算残差 residuals = y_true - y_pred print(residuals)
上記のコードは、それぞれ真の値と予測値を表す 2 つの Pandas Series オブジェクトを作成します。次に、減算によって残差を計算し、出力します。
残差散布図は、モデルの誤差分布を視覚化するために使用される一般的に使用される残差分析ツールです。これは、各観測値の残差値とその観測値の予測値の間の関係を示します。
Python では、Matplotlib ライブラリのscatter() 関数を使用して散布図を作成できます。次のコードを参照してください。
import matplotlib.pyplot as plt # 绘制残差散点图 plt.scatter(y_pred, residuals) plt.title('Residual plot') plt.ylabel('Residuals') plt.xlabel('Fitted values') plt.axhline(y=0, color='r', linestyle='-') plt.show()
上記のコードは、scatter() 関数を使用して散布図を作成します。横軸は予測値、縦軸は残差を表します。このうち、axhline() 関数は、予測値と残差の分布がランダムかどうかを判断するためにグラフに水平線を引くために使用されます。残差値が 0 付近にランダムに分布している場合、モデルは正確であると考えることができます。
散布図に加えて、残差ヒストグラムは、モデル誤差分布が正であるかどうかを評価するための効果的な残差分析ツールでもあります。正規分布の場合、残差値は 0 を中心にランダムに分布するはずなので、ヒストグラムを使用して残差の分布を表示できます。
Python では、Matplotlib ライブラリの hist() 関数を使用してヒストグラムを作成できます。次のコードを参照してください。
# 绘制残差直方图 plt.hist(residuals, bins=10) plt.title('Residuals distribution') plt.xlabel('Residuals') plt.ylabel('Frequency') plt.show()
上記のコードは、 hist() 関数を使用してヒストグラムを描画し、関連するラベルとタイトルを設定します。ここでは、残差の分布をより適切に表示するために bins パラメーターを設定して横軸の粒度を調整します。
Q-Q プロットは、残差が正規分布に従うかどうかをテストするために使用されるツールです。これは、サンプル データと標準正規分布の間の分位点を比較することによって構築されます。残差が正規分布している場合、データ ポイントは Q-Q プロットの直線上にあるはずです。データ ポイントがこの直線から外れる場合、残差は正規分布していないと仮定できます。
Python では、Scipy ライブラリの probplot() 関数を使用して Q-Q プロットを描画できます。次のコードを参照してください。
from scipy.stats import probplot # 绘制Q-Q图 probplot(residuals, dist='norm', plot=plt) plt.title('Q-Q plot') plt.show()
上記のコードは、probplot() 関数を使用して Q-Q プロットを作成し、dist パラメーターを 'norm' に設定します。これは、標準正規分布を比較ベンチマークとして使用することを意味します。データ点が直線から逸脱している場合は、プロットされたグラフを調べることで残差が正規分布していることを確認できます。
概要
この記事では、Python での残差分析手法を紹介し、残差散布図、残差ヒストグラム、Q-Q プロットなどのいくつかの主要なツールを紹介しました。これらの手法は、モデルの精度を評価し、モデルのバイアスを特定するために一般的に使用されます。これらの手法に習熟すると、データの理解と分析が向上し、機械学習モデルの改善と調整のためのより適切な提案が得られます。
以上がPython での残差分析手法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。