ホームページ >バックエンド開発 >Python チュートリアル >Pandas を使用して大きな Excel ファイルから特定のワークシートを効率的にロードするにはどうすればよいですか?

Pandas を使用して大きな Excel ファイルから特定のワークシートを効率的にロードするにはどうすればよいですか?

DDD
DDDオリジナル
2024-11-29 01:36:12686ブラウズ

How Can I Efficiently Load Specific Worksheets from a Large Excel File with Pandas?

Pandas を使用してワークブックから特定のワークシートを効率的にロードする

Pandas の pd.read_excel() 関数は、Excel ワークブックを読み取るための強力なツールです。ただし、複数のワークシートを含む大きなファイルを操作する場合、特に少数の特定のシートのデータのみが必要な場合は、ワークブック全体のロードが非効率になる可能性があります。

pd.read_excel( )

特定のワークシートで pd.read_excel() を使用すると、ワークブック全体がロードされたように見えます記憶に。これは、パンダが内部で ExcelFile オブジェクトを使用してワークブックを表すためです。 ExcelFile オブジェクトは、どのワークシートが指定されているかに関係なく、初期化中にファイル全体を解析します。

特定のシートを効率的にロードする

ロード プロセスを最適化するには、pd の使用を検討してください。 .ExcelFile オブジェクトを直接呼び出します。ワークブックのパスを使用して ExcelFile オブジェクトをインスタンス化すると、ファイル全体を再ロードせずに特定のワークシートにアクセスできます。

例:

xls = pd.ExcelFile('path_to_file.xls')
df1 = pd.read_excel(xls, 'Sheet1')
df2 = pd.read_excel(xls, 'Sheet2')

この方法では、ワークブック全体が作成中に 1 回だけロードされます。 ExcelFile オブジェクトの。後続の pd.read_excel() の呼び出しでは、ファイルの再ロードのオーバーヘッドを発生させることなく、指定されたワークシートからデータが取得されます。

複数のシートのロード

さらに、 pd.read_excel() にシート名またはインデックスのリストを指定して、複数のシートを同時にロードできます。これにより、キーがシート名またはインデックス、値が対応するデータ フレームであるディクショナリが返されます。

例:

sheet_list = ['Sheet1', 'Sheet2']
df_dict = pd.read_excel(xls, sheet_list)

すべてのシートをロード

ワークブック内のすべてのワークシートをロードする必要がある場合は、sheet_name パラメーターを次のように設定します。なし:

df_dict = pd.read_excel(xls, sheet_name=None)

以上がPandas を使用して大きな Excel ファイルから特定のワークシートを効率的にロードするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。