Pandas が Excel ファイルを読み取り、データを処理する方法
はじめに:
Pandas は、一般的に使用されるデータ処理および分析ツールであり、豊富な機能とメソッドを提供します。ユーザーによるデータのクリーニング、変換、分析が容易になります。実際の業務ではExcel形式のデータファイルを加工する必要があることが多いですが、この記事ではPandasを使ってExcelファイルを読み込み、データを加工・分析する方法を紹介します。
1. Pandas ライブラリのインストールとインポート
始める前に、まず Pandas ライブラリをインストールする必要があります。次のコマンドを使用して、pip 経由で Pandas をインストールできます:
pip install pandas
インストールが完了したら、次のコードを通じて Pandas ライブラリをインポートできます:
import pandas as pd
2. Excel ファイルを読み取ります
Excel ファイルを読み取るメソッドには、read_excel() と read_csv() という 2 つの一般的に使用されるメソッドがあります。この記事では、read_excel() メソッドを使用して Excel ファイルを読み取ります。
Excel ファイルの名前が data.xlsx で、Sheet1 という名前のワークシートが含まれているとします。次のコードを使用して Excel ファイルを読み取ることができます:
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
読み取りが完了すると、データは DataFrame オブジェクト df に保存されます。
3. データの処理と分析
Excel ファイルを読み取った後、Pandas のさまざまな関数とメソッドを使用して、データのクリーンアップ、変換、分析を行うことができます。
データの表示
次のコードを使用して、データの最初の数行を表示できます:
print(df.head())
基本的な統計情報
describe() 関数を使用すると、最小値、最大値、平均値などのデータの基本的な統計情報を表示できます。
print(df.describe())
データ フィルタリング
次のコードを使用して、条件セットを満たすデータをフィルターで除外できます。
subset = df[df['列名'] > 50] print(subset)
データの並べ替え
sort_values() 関数を使用して、次のようなデータを並べ替えることができます。特定の列に従って昇順で並べ替えます:
sorted_df = df.sort_values(by='列名', ascending=True) print(sorted_df)
データのグループ化
groupby() 関数を使用してデータをグループ化し、合計、平均、などの集計操作を実行できます。など:
grouped_df = df.groupby('列名').sum() print(grouped_df)
データの視覚化
Yes Pandas が提供する Lot() 関数を使用して、縦棒グラフや折れ線グラフなどの描画などのデータを視覚化します:
df.plot(kind='bar', x='列名', y='列名')
4. 結果を保存します
データの処理と分析が完了したら、次のコードを使用して結果を Excel ファイルに保存できます:
df.to_excel('result.xlsx', index=False)
概要:
この記事では、Pandas を使用して Excel ファイルを読み取り、データを処理する方法とコード例を紹介します。 Pandas の強力な機能とメソッドを通じて、Excel データのクリーンアップ、変換、分析を簡単に行うことができ、データ処理の効率と精度が向上します。
上記は、Pandas が Excel ファイルを読み取り、データを処理する方法についての紹介です。読者の参考になれば幸いです。読んでくれてありがとう!
以上がpandas を使用して Excel ファイルを読み取って処理する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。