ホームページ  >  記事  >  バックエンド開発  >  一般的に使用されるパンダ関数を使用して大規模なデータを簡単に処理する方法を学びます

一般的に使用されるパンダ関数を使用して大規模なデータを簡単に処理する方法を学びます

WBOY
WBOYオリジナル
2024-01-24 08:59:06738ブラウズ

一般的に使用されるパンダ関数を使用して大規模なデータを簡単に処理する方法を学びます

pandas ライブラリの共通関数をマスターして、ビッグデータを簡単に処理します。具体的なコード例が必要です。

ビッグデータ時代の到来により、データ処理はPython で最も一般的に使用されるデータ処理ライブラリの 1 つである pandas ライブラリは、その強力な機能と柔軟な処理方法により、大多数のデータ アナリストや科学者に愛されています。この記事では、pandas ライブラリでよく使用される関数をいくつか紹介し、読者がすぐに使い始めてビッグ データを簡単に処理できるように、具体的なコード例を示します。

  1. データの読み取りと書き込み

pandas では、データを読み取るさまざまな方法が提供されています。最も一般的に使用されるのは、csv ファイルを読み取る方法です。 pandas.read_csv() 関数を使用して、csv ファイルを DataFrame オブジェクトに直接読み取ります。

import pandas as pd

# 读取csv文件
data = pd.read_csv('data.csv')

同様に、pandas.DataFrame.to_csv() 関数を使用して、DataFrame オブジェクトを CSV ファイルに書き込むことができます。

# 将DataFrame对象写入csv文件
data.to_csv('result.csv', index=False)
  1. データの表示

ビッグ データを扱う場合は、まずデータの全体的な状況を理解する必要があります。 Pandas には、データの最初の数行、最後の数行、および全体的な統計概要情報を表示するのに役立つ、一般的に使用される関数がいくつか用意されています。

  • head() 関数は DataFrame の最初の数行を表示でき、デフォルトでは最初の 5 行が表示されます。
# 查看前5行数据
print(data.head())
  • tail()関数は DataFrame の最後の数行を表示でき、デフォルトでは最後の 5 行が表示されます。
# 查看后5行数据
print(data.tail())
  • describe()関数は、数、平均、標準偏差、最小値、最大値などを含む、DataFrame の統計概要情報を表示できます。
# 查看统计摘要信息
print(data.describe())
  1. データのスクリーニングとフィルタリング

ビッグデータを処理する場合、多くの場合、特定の条件に基づいてデータをスクリーニングし、フィルタリングする必要があります。 Pandas は、この機能を実現するためによく使用される関数をいくつか提供します。

  • loc[] 関数を使用して、タグでデータをフィルターします。
# 筛选某一列中值大于10的数据
filtered_data = data.loc[data['column'] > 10]
  • isin() 関数を使用して、リスト内の値に基づいてフィルター処理します。
# 筛选某一列中值在列表[1,2,3]中的数据
filtered_data = data[data['column'].isin([1, 2, 3])]
  • query() 関数を使用して、条件式に基づいてフィルタリングします。
# 筛选某一列中值大于10且小于20的数据
filtered_data = data.query('10 < column < 20')
  1. データの並べ替えと再配置

ビッグ データを扱う場合、データの並べ替えと再配置は多くの場合不可欠な操作です。 Pandas は、この機能を実現するために複数の関数を提供します。

  • sort_values() 関数を使用して、指定された列に従ってデータを並べ替えます。
# 按照某一列的值对数据进行升序排序
sorted_data = data.sort_values(by='column', ascending=True)
  • sort_index() 関数を使用して、インデックスに従ってデータを並べ替えます。
# 按照索引对数据进行升序排序
sorted_data = data.sort_index(ascending=True)
  1. データのグループ化と集計

ビッグ データを処理する場合、多くの場合、特定の条件に従ってデータをグループ化し、各グループに対して集計計算を実行する必要があります。 Pandas は、このタスクを達成するために役立つ複数の関数を提供します。

  • groupby() 関数を使用して、特定の列ごとにグループ化します。
# 根据某一列进行分组
grouped_data = data.groupby('column')
  • agg() 関数を使用して、グループ化されたデータに対して集計計算を実行します。
# 对分组后的数据进行求和操作
sum_data = grouped_data.agg({'column': 'sum'})
  1. データのマージと接続

ビッグ データを扱う場合、多くの場合、複数のデータ セットをマージまたは結合する必要があります。 Pandas は、この機能を実現するために複数の関数を提供します。

  • merge() 関数を使用して、指定された列に基づいて 2 つのデータ セットを結合します。
# 按照某一列进行合并
merged_data = pd.merge(data1, data2, on='column')
  • concat() 関数を使用して、複数のデータ セットを行または列に結合します。
# 按行连接两个数据集
concatenated_data = pd.concat([data1, data2], axis=0)

上記では、pandas ライブラリでよく使われる関数と具体的なコード例を紹介しましたので、読者がビッグデータを処理する際の参考になれば幸いです。もちろん、pandas ライブラリにはより強力な機能があり、より複雑なシナリオになると、公式ドキュメントやその他の資料をさらに探索できます。読者がビッグデータを簡単に扱い、より良い分析結果を達成できることを願っています。

以上が一般的に使用されるパンダ関数を使用して大規模なデータを簡単に処理する方法を学びますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。