Python は、データ サイエンスとビッグ データ分析における重要なツールの 1 つになりました。その強力なライブラリとモジュールにより、機械学習、データ マイニング、データ視覚化などの分野で最適な言語となっています。 Python には、データの処理とモデルの構築に役立つ分析固有のテクニックがいくつかあります。ここでは、一般的に使用される関連分析手法をいくつか紹介します。
散布図はデータ サイエンティストによってよく使用されるツールで、2 つの変数間の相関関係を視覚的に表示できます。 Python では、matplotlib ライブラリのscatter() 関数を使用して散布図を描画できます。例:
import matplotlib.pyplot as plt x = [1, 2, 3, 4, 5] y = [2, 3, 4, 5, 6] plt.scatter(x, y) plt.show()
これは、2 つの変数間の関係を明確に反映する、一連の x 値と y 値の間の単純な散布図を描画します。
線形回帰は、2 つの変数間の線形関係を考慮し、最小二乗法を使用して直線に当てはめるデータ モデルを構築する方法です。 。 Python では、scikit-learn ライブラリを使用して線形回帰を簡単に実行できます。例:
from sklearn.linear_model import LinearRegression x = [[1], [2], [3], [4], [5]] y = [2, 3, 4, 5, 6] model = LinearRegression() model.fit(x, y) print(model.coef_) # 输出拟合直线的斜率
これは、適合線の傾き (回帰係数とも呼ばれる) 2.0 を出力し、x が増加するにつれて y も増加することを示します。
ピアソン相関係数は、2 つの変数間の線形関係を定量化する方法です。その値の範囲は -1 から 1 で、-1 は正反対を表します。相関、0 は相関がないことを示し、1 は完全な正の相関を示します。 Python では、numpy ライブラリの corrcoef() 関数を使用して相関係数を計算できます。例:
import numpy as np x = [1, 2, 3, 4, 5] y = [2, 3, 4, 5, 6] corr = np.corrcoef(x, y) print(corr)
これは 2 つの変数間の相関係数行列を出力し、行列の (0,1) および (1,0) の位置がピアソン相関係数になります。
重線形回帰は、複数の独立変数を考慮する線形回帰手法です。 Python では、scikit-learn ライブラリを使用して多重線形回帰を簡単に実行できます。例:
from sklearn.linear_model import LinearRegression x = [[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]] y = [3, 4, 5, 6, 7] model = LinearRegression() model.fit(x, y) print(model.coef_) # 输出拟合直线的斜率
これは近似直線の傾きを出力し、2 つの独立変数 x1 および x2 が増加するにつれて y が増加することを示します。
偏相関係数は、別の変数の影響を考慮した後の 2 つの変数間の線形関係です。共変量の影響を制御するために使用できます。 Python では、scipy ライブラリの stats モジュールを使用して偏相関係数を計算できます。例:
from scipy import stats x1 = [1, 2, 3, 4, 5] x2 = [2, 4, 6, 8, 10] y = [5, 6, 7, 8, 9] r, p = stats.pearsonr(x1, x2) pr = stats.partial_corr(y, x1, x2) print(r) # 输出x1和x2之间的相关系数 print(pr) # 输出y与x1之间的偏相关系数
この例では、偏相関係数は、y および x1 に対する x2 の影響を制御します。
概要
Python には、関連する分析問題の処理に役立つツールが多数あります。ここにリストされている一般的に使用されるツールには、散布図、線形回帰、相関係数、重回帰、偏相関係数などがあります。これらの手法を習得すると、データ サイエンティストはデータをより深く理解し、適切なモデルを使用して問題を解決できるようになります。
以上がPython の関連分析スキルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。