ビッグデータ時代の到来により、データ分析と機械学習が人気の分野になりました。ただし、データセットを取得し、分析し、モデルをトレーニングする方法は、初心者にとっては難しい作業となる場合があります。この問題を解決するために、オープン ソース コミュニティは豊富なデータ セットを提供しており、人気のあるプログラミング言語である Python も、これらのデータ セットを使用するためのさまざまな方法を提供しています。
この記事では、データの読み込み、参照、クリーニング、視覚化、分析など、Python でオープンソース データ セットを使用するための方法とツールを紹介します。読者がこれらのスキルを習得できるように、公開されているデータセットを実際的なデモンストレーションに使用します。
まず、データ セットを Python プログラムにロードする必要があります。 UCI Machine Learning Repository、Kaggle など、Web からダウンロードできるオープン ソース データセットが多数あります。これらのデータセットは通常、CSV、JSON、XML などのさまざまな形式で保存されます。
Python では、pandas は非常に便利なライブラリです。pandas を使用すると、数行のコードで CSV 形式のデータ セットを読み込むことができます:
import pandas as pd data = pd.read_csv("example.csv")
データセットが Python にロードされたら、データの探索を開始できます。 pandas の head() メソッドを使用して、データの最初の数行を表示できます。
print(data.head())
データ セットの最後の数行を表示したい場合は、tail() メソッドを使用できます。
shape 属性を使用してデータ セットのサイズを取得することもできます:
print(data.shape)
さらに、describe() メソッドを使用して、データ セットの単純な統計を取得することもできます。最小値、最大値、平均など:
print(data.describe())
データ セットを参照すると、値が欠落していることが見つかる場合があります。外れ値、またはデータセット内の重複値。データ分析や機械学習において、これらの問題は非常に深刻であるため、これらの問題を解決する必要があります。
欠損値の場合は、fillna() メソッドを使用して 0 または平均値で埋めることができます:
data.fillna(0, inplace=True)
データセット内の重複した行を削除したい場合は、次のように使用できます。 drop_duplicates( ) メソッド:
data.drop_duplicates(inplace=True)
外れ値の場合、標準偏差を使用して異常かどうかを判断し、平均値に置き換えることができます:
mean = data["col"].mean() std = data["col"].std() cut_off = std * 3 lower, upper = mean - cut_off, mean + cut_off new_data = [x if x > lower and x < upper else mean for x in data["col"]] data["col"] = new_data
データの視覚化はデータ分析における重要なステップの 1 つであり、Python ではデータの視覚化に Matplotlib や Seaborn などのライブラリを使用できます。
たとえば、Matplotlib ライブラリを使用してデータ セット内に折れ線グラフを描画することができます:
import matplotlib.pyplot as plt plt.plot(data["col"]) plt.show()
または、Seaborn ライブラリのペアプロット メソッドを使用して複数の変数の分布図を作成できます。
import seaborn as sns sns.pairplot(data)
データの視覚化後、モデルの構築、モデルのトレーニング、予測など、より詳細なデータ分析を実行できます。 Python は、Scikit-learn や TensorFlow など、これらの操作をサポートする多くのライブラリを提供します。
たとえば、Scikit-learn ライブラリを使用して線形回帰モデルを構築できます:
from sklearn.linear_model import LinearRegression from sklearn.model_selection import train_test_split X = data[["col1", "col2"]] y = data["target_col"] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2) model = LinearRegression() model.fit(X_train, y_train) y_pred = model.predict(X_test)
上の例では、train_test_split メソッドを使用してデータ セットをトレーニング セットに分割します。次に、LinearRegression クラスを使用してモデルを構築し、最後に、predict メソッドを使用してテスト セットを予測します。
結論
この記事では、Python でのデータ分析と機械学習にオープンソース データセットを使用する方法を紹介します。データセットの読み込みと参照には pandas ライブラリを使用し、データの視覚化には Matplotlib ライブラリと Seaborn ライブラリを使用し、モデルの構築とトレーニングには Scikit-learn ライブラリを使用します。これらの手法とツールは、この記事で説明したオープンソース データ セットだけでなく、Web データ、センサー データなどの他の種類のデータ セットにも適用できます。データ分析と機械学習が発展するにつれて、これらのテクノロジーとツールは更新および改善され続け、より優れたパフォーマンスと使いやすさを提供します。
以上がPython でオープンソース データセットを使用するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。