ホームページ >バックエンド開発 >Python チュートリアル >pandas を使用して大規模なデータセットを処理する方法

pandas を使用して大規模なデータセットを処理する方法

WBOY
WBOYオリジナル
2023-08-05 20:06:131333ブラウズ

パンダを使用して大規模なデータ セットを処理する方法

ビッグ データ時代の到来に伴い、データ セットのサイズと複雑さも増大しています。大規模なデータセットを効率的に処理する方法は、データ アナリストやデータ サイエンティストにとって重要な問題です。 pandas は、Python データ分析ライブラリとして、大規模なデータ セットを迅速に処理できる柔軟で効率的なデータ処理ツールを提供します。この記事では、pandas を使用して大規模なデータ セットを処理する方法を紹介し、いくつかのコード例を示します。

  1. pandas ライブラリのインストールとインポート

まず、pandas ライブラリをインストールする必要があります。 pip コマンドを使用してインストールできます:

pip install pandas

インストールが完了したら、Python スクリプトに pandas ライブラリをインポートする必要があります:

import pandas as pd
  1. 大規模なデータ セットの読み込み

大規模なデータセットを処理する前に、データを pandas データ構造にロードする必要があります。 Pandas はさまざまなデータ構造を提供しますが、その中で最も一般的に使用されるのは DataFrame です。 DataFrame はデータベース テーブルや Excel データ テーブルに似ており、データを行と列に編成できます。

以下は、CSV ファイルをロードするためのサンプル コードです:

df = pd.read_csv('data.csv')

データ セットは data.csv という名前の CSV ファイルであると仮定します。 CSV ファイルは、read_csv() 関数を使用して DataFrame にロードできます。

  1. データ セット情報の表示

データの処理を開始する前に、まずデータ ディメンション、列名、データなどのデータ セットの基本情報を確認します。種類など。次のコードを使用して、DataFrame 情報を表示できます。

# 查看数据维度
print(df.shape)

# 查看列名
print(df.columns)

# 查看数据类型
print(df.dtypes)

# 查看前几行数据
print(df.head())
  1. データ クリーニング

大規模なデータ セットには、欠損値、重複値、異常値、その他の問題が含まれることがよくあります。データをクリーンアップして前処理する必要があります。 pandas は、これらの問題に対処するための一連の関数とメソッドを提供します。

4.1 欠損値の処理

# 检查每列的缺失值数量
print(df.isnull().sum())

# 删除包含缺失值的行
df = df.dropna()

# 填充缺失值
df = df.fillna(value=0)

4.2 重複値の処理

# 检查是否有重复值
print(df.duplicated().sum())

# 删除重复值
df = df.drop_duplicates()

4.3 外れ値の処理

# 检查是否有异常值
print(df.describe())

# 处理异常值
df = df[df['age'] > 0]
  1. データ分析と操作

データをクリーニングした後、データの分析と操作を実行できます。 pandas は、データ分析と運用をサポートする豊富な機能とメソッドを提供します。

5.1 データのフィルタリング

# 筛选出age大于30的数据
df_filtered = df[df['age'] > 30]

# 使用多个条件筛选数据
df_filtered = df[(df['age'] > 30) & (df['gender'] == '男')]

5.2 データの並べ替え

# 按照age降序排序
df_sorted = df.sort_values('age', ascending=False)

# 按照多个列进行排序
df_sorted = df.sort_values(['age', 'gender'], ascending=[False, True])

5.3 データの集約

# 计算age的平均值
average_age = df['age'].mean()

# 按照gender分组计算age的平均值
average_age_by_gender = df.groupby('gender')['age'].mean()
  1. データの視覚化

最後に、パンダを他のデータ視覚化ツールと併用してデータを視覚化できます。

import matplotlib.pyplot as plt

# 绘制柱状图
df['age'].plot(kind='bar')

# 绘制散点图
plt.scatter(df['age'], df['income'])

# 绘制折线图
df.groupby('gender')['age'].mean().plot(kind='line')

# 显示图形
plt.show()

上記は、pandas を使用して大規模なデータ セットを処理する方法の紹介です。 pandas の関数とメソッドを合理的に使用することで、大規模なデータセットを効率的に処理および分析できます。もちろん、これは pandas の基本的な使用法にすぎませんが、pandas はさらに高度なデータ処理および分析機能も提供しており、特定のニーズに応じて学習および適用できます。

以上がpandas を使用して大規模なデータセットを処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。