ホームページ >バックエンド開発 >Python チュートリアル >データ処理ツール: pandas で Excel ファイルを読み取るための効率的なテクニック
データ処理の人気が高まるにつれ、データを効率的に使用し、データを活用する方法に注目する人が増えています。日々のデータ処理において、Excel テーブルは間違いなく最も一般的なデータ形式です。しかし、大量のデータを処理する必要がある場合、Excel を手動で操作するのは明らかに時間と労力がかかります。したがって、この記事では、効率的なデータ処理ツールである pandas と、このツールを使用して Excel ファイルをすばやく読み込んでデータ処理を実行する方法を紹介します。
1. pandas の紹介
pandas は、幅広いデータ読み取り、データ処理、およびデータ分析機能を提供する強力な Python データ分析ツールです。 pandas の主なデータ構造は DataFrame と Series で、Excel や CSV などの一般的な形式のファイルを直接読み取り、さまざまなデータ処理操作を実行できます。そのため、pandas はデータ処理の分野で広く使用されており、Python データ分析の主流ツールの 1 つとして知られています。
2. pandas で Excel ファイルを読み取る基本的な方法
pandas では、Excel ファイルを読み取るための主な関数は read_excel であり、Excel テーブルのデータを読み取り、それをデータに変換できます。データフレームオブジェクト。コードは次のとおりです。
import pandas as pd data = pd.read_excel('test.xlsx', sheet_name='Sheet1')
上記のコードでは、test.xlsx は読み込む Excel ファイルの名前、Sheet1 は読み込むシートの名前です。このように、データは Excel テーブルのデータを含む DataFrame オブジェクトです。
3. pandas で Excel ファイルを効率的に読み取るテクニック
pandas の基本的な読み取り方法は、手動で Excel を操作する場合に比べて大幅に時間を節約できますが、大量のデータを処理する場合は、 Excel ファイルの読み取りプロセスを最適化します。
1. Skiprows および nrows パラメーターを使用する
skiprows および nrows パラメーターを使用して、テーブル内の行をスキップし、指定された数の行を読み取ることができます。たとえば、次のコードは、テーブルの行 2 から行 1001 までのデータを読み取ることができます。
data = pd.read_excel('test.xlsx', sheet_name='Sheet1', skiprows=1, nrows=1000)
この方法では、データの一部のみを読み取ることができるため、読み取り時間とメモリ消費量が節約されます。
2. usecols パラメーターを使用する
テーブル内のデータの特定の列のみが必要な場合は、usecols パラメーターを使用して、指定された列のみを読み取ることができます。たとえば、次のコードはテーブルの列 A と B のみを読み取ります。
data = pd.read_excel('test.xlsx', sheet_name='Sheet1', usecols=['A', 'B'])
このようにして、処理する必要があるデータ列に焦点を当て、不要なデータの読み取りを回避できます。
3. チャンクサイズとイテレータ パラメータを使用する
読み取られる Excel ファイルが大きい場合は、チャンクサイズとイテレータ パラメータを使用してデータをブロック単位で読み取ることができます。たとえば、次のコードは一度に 1000 行のデータを読み取ることができます。
for i in pd.read_excel('test.xlsx', sheet_name='Sheet1', chunksize=1000): # 处理代码
このようにして、データをブロックごとに読み取り、バッチで処理して、データ処理効率を向上させることができます。
4. 完全な例
次は、パンダが Excel ファイルを読み取るための完全なサンプル コードです。このコードは、test.xlsx の Sheet1 のすべてのデータを読み取り、列 A を計算します。 . と列 B の合計を計算し、結果を出力します:
import pandas as pd data = pd.read_excel('test.xlsx', sheet_name='Sheet1') result = pd.DataFrame([{'sum_A': data['A'].sum(), 'sum_B': data['B'].sum()}]) result.to_excel('result.xlsx', index=False)
上記のコードでは、最初に test.xlsx ファイル全体の Sheet1 を読み取り、次に sum 関数を使用して列 A の合計を計算します。と B を結合し、その結果を DataFrame オブジェクトに格納します。最後に、結果を新しい Excel ファイル result.xlsx に書き込みます。このファイルには 1 行のデータのみが含まれており、最初の列は列 A の合計、2 列目は列 B の合計です。
概要
上記の紹介を通じて、pandas を使用して Excel ファイルを読み取ると、データ処理の効率が大幅に向上し、さまざまな高度なパラメーターを使用してさらに最適化できることがわかりました。 pandas が提供するメソッド データの読み取りと処理のプロセス。したがって、データ分析と処理の分野では、パンダの使用は非常に効率的で実用的なツールです。
以上がデータ処理ツール: pandas で Excel ファイルを読み取るための効率的なテクニックの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。