ホームページ >バックエンド開発 >Python チュートリアル >pandasライブラリのよく使われる関数の紹介と使い方を詳しく解説

pandasライブラリのよく使われる関数の紹介と使い方を詳しく解説

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-01-24 10:19:171586ブラウズ

pandas ライブラリの一般的な機能の紹介と詳細な使用方法の説明

はじめに:

pandas は、オープンソースで柔軟かつ効率的なデータ分析と、操作ツールであり、データサイエンス、機械学習、金融、統計などの分野で広く使用されています。この記事では、読者が pandas をよりよく理解して使用できるように、pandas ライブラリでよく使用される関数とその使用法を紹介します。

1. データ構造の概要

シリーズ (シーケンス)

シリーズは、pandas の最も基本的なデータ構造の 1 つです。任意のデータ型 (整数、浮動小数点数、文字列など) を含めることができる次元。作成方法は以下のとおりです。

import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

出力結果：

0    1
1    2
2    3
3    4
4    5
dtype: int64

DataFrame (データフレーム)

DataFrameは、最も一般的に使用されるデータ構造です。 pandas. 複数のシリーズから構成されているとみなすことができる 2 次元の表形式のデータ構造です。作成方法は以下の通りです。

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'city': ['New York', 'London', 'Tokyo']}
df = pd.DataFrame(data)
print(df)

出力結果:

      name  age      city
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Tokyo

2. 共通関数の紹介と詳細な使い方

head()とtail()

head() 関数はデータフレームの最初の数行を表示するために使用され、デフォルトでは最初の 5 行が表示されます。tail() 関数はデータフレームの最後の数行を表示するために使用されます。 DataFrame と最後の 5 行がデフォルトで表示されます。サンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())
print(df.tail())

shape 属性

shape 属性は、DataFrame の形状、つまり行と列の数を返します。サンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.shape)

info() 関数

info() 関数は、列名、番号など、DataFrame の全体的な情報を表示するために使用されます。 null 以外の値とデータ型は待機します。サンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.info())

describe() 関数

describe() 関数は、DataFrame 内の数値列の統計情報 (count、平均値、標準偏差、最小値、最大値などサンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')
print(df.describe())

sort_values() 関数

sort_values() 関数は、指定された列の値に基づいて DataFrame を並べ替えるために使用されます。サンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')
df_sorted = df.sort_values(by='age', ascending=False)  # 按照age列的值进行降序排序
print(df_sorted)

groupby() 関数

groupby() 関数は、指定した列ごとにグループ化し、グループ化された結果を集計するために使用されます。サンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')
grouped = df.groupby('city')
mean_age = grouped['age'].mean()  # 计算每个城市的平均年龄
print(mean_age)

merge() 関数

merge() 関数は、指定された列に従って 2 つの DataFrame をマージするために使用されます。サンプルコードは次のとおりです。

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': ['a', 'b', 'c']})
df2 = pd.DataFrame({'A': [2, 3, 4],
                    'C': ['x', 'y', 'z']})
merged = pd.merge(df1, df2, on='A')  # 按照列A合并
print(merged)

apply() 関数

apply() 関数は、DataFrame 内の各要素にカスタム関数を適用するために使用されます。サンプルコードは次のとおりです。

import pandas as pd

df = pd.read_csv('data.csv')

# 定义一个自定义函数：将年龄加上10
def add_ten(age):
    return age + 10

df['age'] = df['age'].apply(add_ten)  # 对age列的每个元素应用add_ten函数
print(df)

結論:

この記事では、Series と DataFrame の基本操作、データ統計、並べ替えなど、pandas ライブラリのよく使用される関数とその使用方法を簡単に紹介します。、グループ化、マージ、および自動定義関数アプリケーションなど。この記事での紹介が、読者のパンダライブラリの理解と使用に役立ち、データ分析と処理においてより大きな役割を果たすことを願っています。

以上がpandasライブラリのよく使われる関数の紹介と使い方を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

pandas 数据类型字符串数据结构数据分析

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：パンダのソートの詳細: データの順序付けされた外観の作成次の記事：パンダのソートの詳細: データの順序付けされた外観の作成

続きを見る