pandas ライブラリの一般的な機能の紹介と詳細な使用方法の説明
はじめに:
pandas は、オープンソースで柔軟かつ効率的なデータ分析と、操作ツールであり、データサイエンス、機械学習、金融、統計などの分野で広く使用されています。この記事では、読者が pandas をよりよく理解して使用できるように、pandas ライブラリでよく使用される関数とその使用法を紹介します。
1. データ構造の概要
シリーズは、pandas の最も基本的なデータ構造の 1 つです。任意のデータ型 (整数、浮動小数点数、文字列など) を含めることができる次元。作成方法は以下のとおりです。
import pandas as pd data = [1, 2, 3, 4, 5] s = pd.Series(data) print(s)
出力結果:
0 1 1 2 2 3 3 4 4 5 dtype: int64
DataFrameは、最も一般的に使用されるデータ構造です。 pandas. 複数のシリーズから構成されているとみなすことができる 2 次元の表形式のデータ構造です。作成方法は以下の通りです。
import pandas as pd data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'London', 'Tokyo']} df = pd.DataFrame(data) print(df)
出力結果:
name age city 0 Alice 25 New York 1 Bob 30 London 2 Charlie 35 Tokyo
2. 共通関数の紹介と詳細な使い方
head() 関数はデータフレームの最初の数行を表示するために使用され、デフォルトでは最初の 5 行が表示されます。tail() 関数はデータフレームの最後の数行を表示するために使用されます。 DataFrame と最後の 5 行がデフォルトで表示されます。サンプル コードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') print(df.head()) print(df.tail())
shape 属性は、DataFrame の形状、つまり行と列の数を返します。サンプル コードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') print(df.shape)
info() 関数は、列名、番号など、DataFrame の全体的な情報を表示するために使用されます。 null 以外の値とデータ型は待機します。サンプル コードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') print(df.info())
describe() 関数は、DataFrame 内の数値列の統計情報 (count、平均値、標準偏差、最小値、最大値などサンプル コードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') print(df.describe())
sort_values() 関数は、指定された列の値に基づいて DataFrame を並べ替えるために使用されます。サンプル コードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') df_sorted = df.sort_values(by='age', ascending=False) # 按照age列的值进行降序排序 print(df_sorted)
groupby() 関数は、指定した列ごとにグループ化し、グループ化された結果を集計するために使用されます。サンプル コードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') grouped = df.groupby('city') mean_age = grouped['age'].mean() # 计算每个城市的平均年龄 print(mean_age)
merge() 関数は、指定された列に従って 2 つの DataFrame をマージするために使用されます。サンプル コードは次のとおりです。
import pandas as pd df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}) df2 = pd.DataFrame({'A': [2, 3, 4], 'C': ['x', 'y', 'z']}) merged = pd.merge(df1, df2, on='A') # 按照列A合并 print(merged)
apply() 関数は、DataFrame 内の各要素にカスタム関数を適用するために使用されます。サンプルコードは次のとおりです。
import pandas as pd df = pd.read_csv('data.csv') # 定义一个自定义函数:将年龄加上10 def add_ten(age): return age + 10 df['age'] = df['age'].apply(add_ten) # 对age列的每个元素应用add_ten函数 print(df)
結論:
この記事では、Series と DataFrame の基本操作、データ統計、並べ替えなど、pandas ライブラリのよく使用される関数とその使用方法を簡単に紹介します。 、グループ化、マージ、および自動定義関数アプリケーションなど。この記事での紹介が、読者のパンダ ライブラリの理解と使用に役立ち、データ分析と処理においてより大きな役割を果たすことを願っています。
以上がpandasライブラリのよく使われる関数の紹介と使い方を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。