ホームページ >バックエンド開発 >Python チュートリアル >データ処理ツール: pandas で Excel ファイルを読み取るための効率的なテクニック

データ処理ツール: pandas で Excel ファイルを読み取るための効率的なテクニック

WBOY
WBOYオリジナル
2024-01-19 08:58:131250ブラウズ

データ処理ツール: pandas で Excel ファイルを読み取るための効率的なテクニック

データ処理の人気が高まるにつれ、データを効率的に使用し、データを活用する方法に注目する人が増えています。日々のデータ処理において、Excel テーブルは間違いなく最も一般的なデータ形式です。しかし、大量のデータを処理する必要がある場合、Excel を手動で操作するのは明らかに時間と労力がかかります。したがって、この記事では、効率的なデータ処理ツールである pandas と、このツールを使用して Excel ファイルをすばやく読み込んでデータ処理を実行する方法を紹介します。

1. pandas の紹介

pandas は、幅広いデータ読み取り、データ処理、およびデータ分析機能を提供する強力な Python データ分析ツールです。 pandas の主なデータ構造は DataFrame と Series で、Excel や CSV などの一般的な形式のファイルを直接読み取り、さまざまなデータ処理操作を実行できます。そのため、pandas はデータ処理の分野で広く使用されており、Python データ分析の主流ツールの 1 つとして知られています。

2. pandas で Excel ファイルを読み取る基本的な方法

pandas では、Excel ファイルを読み取るための主な関数は read_excel であり、Excel テーブルのデータを読み取り、それをデータに変換できます。データフレームオブジェクト。コードは次のとおりです。

import pandas as pd
data = pd.read_excel('test.xlsx', sheet_name='Sheet1')

上記のコードでは、test.xlsx は読み込む Excel ファイルの名前、Sheet1 は読み込むシートの名前です。このように、データは Excel テーブルのデータを含む DataFrame オブジェクトです。

3. pandas で Excel ファイルを効率的に読み取るテクニック

pandas の基本的な読み取り方法は、手動で Excel を操作する場合に比べて大幅に時間を節約できますが、大量のデータを処理する場合は、 Excel ファイルの読み取りプロセスを最適化します。

1. Skiprows および nrows パラメーターを使用する

skiprows および nrows パラメーターを使用して、テーブル内の行をスキップし、指定された数の行を読み取ることができます。たとえば、次のコードは、テーブルの行 2 から行 1001 までのデータを読み取ることができます。

data = pd.read_excel('test.xlsx', sheet_name='Sheet1', skiprows=1, nrows=1000)

この方法では、データの一部のみを読み取ることができるため、読み取り時間とメモリ消費量が節約されます。

2. usecols パラメーターを使用する

テーブル内のデータの特定の列のみが必要な場合は、usecols パラメーターを使用して、指定された列のみを読み取ることができます。たとえば、次のコードはテーブルの列 A と B のみを読み取ります。

data = pd.read_excel('test.xlsx', sheet_name='Sheet1', usecols=['A', 'B'])

このようにして、処理する必要があるデータ列に焦点を当て、不要なデータの読み取りを回避できます。

3. チャンクサイズとイテレータ パラメータを使用する

読み取られる Excel ファイルが大きい場合は、チャンクサイズとイテレータ パラメータを使用してデータをブロック単位で読み取ることができます。たとえば、次のコードは一度に 1000 行のデータを読み取ることができます。

for i in pd.read_excel('test.xlsx', sheet_name='Sheet1', chunksize=1000):
    # 处理代码

このようにして、データをブロックごとに読み取り、バッチで処理して、データ処理効率を向上させることができます。

4. 完全な例

次は、パンダが Excel ファイルを読み取るための完全なサンプル コードです。このコードは、test.xlsx の Sheet1 のすべてのデータを読み取り、列 A を計算します。 . と列 B の合計を計算し、結果を出力します:

import pandas as pd
data = pd.read_excel('test.xlsx', sheet_name='Sheet1')
result = pd.DataFrame([{'sum_A': data['A'].sum(), 'sum_B': data['B'].sum()}])
result.to_excel('result.xlsx', index=False)

上記のコードでは、最初に test.xlsx ファイル全体の Sheet1 を読み取り、次に sum 関数を使用して列 A の合計を計算します。と B を結合し、その結果を DataFrame オブジェクトに格納します。最後に、結果を新しい Excel ファイル result.xlsx に書き込みます。このファイルには 1 行のデータのみが含まれており、最初の列は列 A の合計、2 列目は列 B の合計です。

概要

上記の紹介を通じて、pandas を使用して Excel ファイルを読み取ると、データ処理の効率が大幅に向上し、さまざまな高度なパラメーターを使用してさらに最適化できることがわかりました。 pandas が提供するメソッド データの読み取りと処理のプロセス。したがって、データ分析と処理の分野では、パンダの使用は非常に効率的で実用的なツールです。

以上がデータ処理ツール: pandas で Excel ファイルを読み取るための効率的なテクニックの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。