ホームページ  >  記事  >  バックエンド開発  >  Python でスチューデント化残差を計算するにはどうすればよいですか?

Python でスチューデント化残差を計算するにはどうすればよいですか?

WBOY
WBOY転載
2023-09-24 18:45:021136ブラウズ

スチューデント化残差は、データ内の潜在的な外れ値を特定するために回帰分析でよく使用されます。外れ値は、データの全体的な傾向から大きく異なる点であり、近似されたモデルに大きな影響を与える可能性があります。外れ値を特定して分析することで、データの根本的なパターンをより深く理解し、モデルの精度を向上させることができます。この記事では、スチューデント化残差とそれを Python で実装する方法について詳しく見ていきます。

スチューデント化残差とは何ですか?

「スチューデント化残差」という用語は、標準偏差を推定値で割った特定のクラスの残差を指します。回帰分析の残差は、応答変数の観測値とモデルによって生成された期待値との差を表します。近似モデルに大きな影響を与える可能性のあるデータ内の外れ値を見つけるために、スチューデント化残差が使用されました。

通常、スチューデント化残差の計算には次の式が使用されます -

リーリー

ここで、「残差」は観測された応答値と期待される応答値の差を指し、「残差標準偏差」は残差標準偏差の推定値を指し、「hii」は各データ ポイントの値を指します。要素。

Python を使用してスチューデント化残差を計算する

statsmodels パッケージを使用して、Python でスチューデント化残差を計算できます。例として、次のことを考えてみましょう -

###文法### リーリー

ここで、OLSResults は、statsmodels の ols() メソッドを使用して近似された線形モデルを指します。

リーリー

ここで、「評価」と「スコア」は単純な線形回帰を指します。

###アルゴリズム###

numpy、pandas、Statsmodel API をインポートします。

  • データセットを作成します。

  • データセットに対して単純な線形回帰モデルを実行します。

  • スチューデント化残差を計算します。

  • スチューデント化された残差を出力します。

  • ###例###

    これは、scikit-posthocs ライブラリを使用してダンのテストを実行するデモンストレーションです -

    リーリー
  • 次に、statsmodels OLS クラスを使用して線形回帰モデルを作成します -
リーリー

outlier test() メソッドを使用すると、データセット内の各観測値のスチューデント化残差を DataFrame で生成できます -

リーリー ###出力### リーリー

スチューデント化された残差に基づいて予測子の値を迅速にプロットすることもできます -

###文法### リーリー

ここでは、matpotlib ライブラリを使用して、color = 'black'、lifestyle = '--' でグラフを描画します

###アルゴリズム###

matplotlib の pyplot ライブラリをインポートします

予測子の値を定義する

スチューデント化残差を定義する

  • 予測変数とスチューデント化残差の散布図を作成する

  • ###例### リーリー ###出力###

  • ###結論は###
  • 考えられるデータ外れ値を特定して評価します。スチューデント化残差を調べると、データの全体的な傾向から大きく逸脱している点を見つけて、それらが近似モデルに影響を与える理由を調査できます。重要な観測値の特定 スチューデント化された残差を使用して、近似されたモデルに大きな影響を与える影響力のあるデータを発見および評価できます。レバレッジの高いスポットを探してください。スチューデント化残差を使用して、高いてこ比ポイントを特定できます。レバレッジは、適合モデルに対する特定の点の影響の尺度です。全体として、スチューデント化残差を使用すると、回帰モデルの分析とパフォーマンスの向上に役立ちます。

以上がPython でスチューデント化残差を計算するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はtutorialspoint.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。