パンダ ライブラリの共通関数をデータ分析に使用する方法
概要:
ビッグデータ時代の到来により、データ分析はますます高度化しています。より重要 。 Pandas ライブラリは、Python データ分析の強力なツールとして、データを処理および分析するための豊富な関数を提供します。この記事では、Pandas ライブラリで一般的に使用される関数を紹介し、読者がデータ分析に Pandas をより効果的に使用できるように、具体的なコード例を示します。
データのインポートと表示
Pandas では、データをインポートするためのさまざまな方法が提供されています。一般的に使用される方法には、csv、Excel、SQL データベースの読み取りが含まれますが、その中で最もよく使用される関数は read_csv です()。サンプル コードは次のとおりです。
import pandas as pd # 从csv文件中导入数据 df = pd.read_csv('data.csv') # 查看数据的前几行 print(df.head(5)) # 查看数据的基本信息,包括列名、数据类型等 print(df.info())
データ クリーニング
データ分析の前に、欠損値、重複値、外れ値の処理などのデータのクリーニングが必要になることがよくあります。 Pandas は、データ クリーニングに役立つ豊富な機能を提供します。サンプル コードは次のとおりです。
# 处理缺失值,填充为指定值 df.fillna(value=0, inplace=True) # 删除重复值 df.drop_duplicates(inplace=True) # 处理异常值,删除指定范围外的数据 df = df[(df['col'] >= 0) & (df['col'] <= 100)]
データのフィルタリングと並べ替え
Pandas は、条件に基づいてデータを選択および並べ替えできる強力なフィルタリングおよび並べ替え機能を提供します。サンプル コードは次のとおりです:
# 根据条件筛选数据 df_filtered = df[df['col'] > 0] # 根据某一列进行升序排序 df_sorted = df.sort_values(by='col', ascending=True)
データの集約と統計
データの集約と統計は、データ分析の中核的な側面の 1 つです。Pandas は、データ集約のための豊富な関数を提供します。そして統計分析。サンプル コードは次のとおりです。
# 求取某一列的平均值 mean_val = df['col'].mean() # 求取某一列的总和 sum_val = df['col'].sum() # 统计某一列的唯一值及其出现次数 value_counts = df['col'].value_counts()
データ視覚化
データ視覚化は、データ分析結果を視覚的に表示するのに役立ち、Pandas は Matplotlib などの視覚化ライブラリとシームレスに統合できます。サンプル コードは次のとおりです。
import matplotlib.pyplot as plt # 绘制柱状图 df['col'].plot(kind='bar') # 绘制散点图 df.plot(kind='scatter', x='col1', y='col2') # 绘制折线图 df.plot(kind='line') # 显示图形 plt.show()
概要:
Pandas は、データを処理および分析するための豊富な機能を提供する強力なデータ分析ツールです。この記事では、Pandas ライブラリでよく使用される関数を紹介し、具体的なコード例を示します。これらの共通機能を習得することで、読者はデータ分析に Pandas をより適切に活用できるようになり、ビッグデータ時代の課題にうまく対処できるようになります。
以上がpandas ライブラリの基本関数をデータ分析に使用する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。