ホームページ >バックエンド開発 >Python チュートリアル >pandas を使用して大量の Excel データを簡単に読み取り、処理する
タイトル: Pandas を使用して Excel ファイルを読み取り、大量のデータを簡単に処理する
概要: Pandas は、大量のデータを簡単に読み取り、処理できる強力な Python データ処理ツールです。データ量。この記事では、Pandas ライブラリを使用して Excel ファイルを読み取る方法と、具体的なコード例を紹介します。
1. Pandas ライブラリをインストールする
始める前に、まず Pandas ライブラリをインストールする必要があります。次のコマンドを使用して Pandas をインストールできます。
pip install pandas
2. Pandas ライブラリと Excel ファイルをインポートします
Pandas の使用を開始する前に、Pandas ライブラリをインポートする必要があります。次のコマンドを使用してインポートできます:
import pandas as pd
次に、Pandas の read_excel
関数を使用して Excel ファイルを読み取ることができます。具体的なコード例を次に示します。
df = pd.read_excel('data.xlsx')
このうち、data.xlsx
は、読み込む Excel ファイルの名前です。
3. データ処理の例
Excel ファイルの読み込みに成功したら、Pandas が提供するさまざまな関数を使用してデータを処理できます。一般的に使用されるデータ処理の例を次に示します:
head
メソッドを使用して、データの最初の数行を表示できます。最初の 5 行は、次の方法で表示されます。デフォルト。 df.head()
adults = df[df['年龄'] >= 18]
describe
メソッドを使用して、平均、標準偏差、最小値、最大値、などのデータの統計指標を計算できます。等statistics = df.describe()
sort_values
メソッドを使用してデータを並べ替えることができます。次の例は、「年齢」の小さいものから大きいものの順に並べられています。 sorted_df = df.sort_values(by='年龄')
groupby
メソッドを使用してデータをグループ化し、集計計算を実行できます。次の例では、性別ごとにグループ化し、各グループの平均年齢を計算します。 grouped_data = df.groupby('性别')['年龄'].mean()
import matplotlib.pyplot as plt df['年龄'].plot(kind='hist') plt.show()
4. 処理済みデータの保存
データ処理後、Pandas が提供するメソッドを使用して、処理済みデータを Excel ファイルに保存できます。以下は、output.xlsx
ファイルにデータを保存する具体的なコード例です。
df.to_excel('output.xlsx', index=False)
このうち、index=False
は、インデックス列を保存しないことを意味します。
結論:
この記事では、Pandas ライブラリを使用して Excel ファイルを読み取り、データ処理を実行する方法を紹介し、具体的なコード例を示します。 Pandas の強力な機能は、大量のデータを簡単に処理し、データ分析と処理の効率を向上させるのに役立ちます。この記事が Pandas の学習と使用に役立つことを願っています。
以上がpandas を使用して大量の Excel データを簡単に読み取り、処理するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。