メモリエラーを回避するために Pandas で大きな DataFrame を効果的に処理するにはどうすればよいですか?-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

メモリエラーを回避するために Pandas で大きな DataFrame を効果的に処理するにはどうすればよいですか?

Susan Sarandon

Oct 26, 2024 am 01:24 AM

How can I effectively handle large DataFrames in Pandas to avoid memory errors?

Pandas - 大きな DataFrame をチャンクにスライスする

大きな DataFrame は、特に関数に渡す場合に扱いが難しい場合があります。大きな DataFrame を操作するときにメモリエラーが発生する可能性があり、DataFrame を小さなチャンクにスライスすると、この問題を軽減できます。

DataFrame をより小さなチャンクにスライスするには:

リスト内包表記: リスト内包表記を利用して、より小さい DataFrame のリストを作成します。

<code class="python">n = 200000  # chunk row size
list_df = [df[i:i+n] for i in range(0, df.shape[0], n)]</code>

Numpy array_split: numpy の array_split 関数を利用して DataFrame を分割します。

<code class="python">list_df = np.array_split(df, math.ceil(len(df)/n))</code>

チャンクにアクセスするには、リストにインデックスを付けるだけです:

<code class="python">list_df[0]
list_df[1]
etc...</code>

AcctName で DataFrame を分割します:

<code class="python">list_df = []

for n, g in df.groupby('AcctName'):
    list_df.append(g)</code>

DataFrame が分割されたらチャンクに分割した場合は、関数を介して渡し、pd.concat.

を使用して単一の DataFrame に再構築できます。

以上がメモリエラーを回避するために Pandas で大きな DataFrame を効果的に処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は？Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

HTMLを解析するために美しいスープを使用するにはどうすればよいですか？Mar 10, 2025 pm 06:54 PM

この記事では、Pythonライブラリである美しいスープを使用してHTMLを解析する方法について説明します。 find（）、find_all（）、select（）、およびget_text（）などの一般的な方法は、データ抽出、多様なHTML構造とエラーの処理、および代替案（SEL

TensorflowまたはPytorchで深い学習を実行する方法は？Mar 10, 2025 pm 06:52 PM

この記事では、深い学習のためにTensorflowとPytorchを比較しています。関連する手順、データの準備、モデルの構築、トレーニング、評価、展開について詳しく説明しています。特に計算グラップに関して、フレームワーク間の重要な違い

あるデータフレームの列全体を、Python内の異なる構造を持つ別のデータフレームに効率的にコピーする方法は？Apr 01, 2025 pm 11:15 PM

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。