Pandas でのデータフレーム反復の最適化
複雑な分析を実行するためにデータフレームを順次反復処理することは、金融データ処理における一般的なタスクです。 df.values で enumerate() を使用する提供されたコードは単純なアプローチを提供しますが、その効率性について疑問が生じます。
これに対処するために、pandas は特殊なソリューションを提供します。 iterrows() 関数を使用すると、データフレーム行を直接反復して、インデックスと対応する行値のタプルを返すことができます。このメソッド:
for index, row in df.iterrows(): # perform analysis based on index and row values
パフォーマンスを向上させるために、itertuples() 関数は iterrows() に代わるメモリ効率の高い代替手段を提供します。
あるいは、非常に効率的なアプローチは、numpy 関数を直接利用することです。データフレーム列で、行の反復を完全に回避します。 numpy 演算は列全体に作用し、より高速なベクトル化計算を可能にします。たとえば、平均始値を計算するには:
import numpy as np mean_open = np.mean(df['Open'])
以上がPandas で DataFrame の反復を最適化するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。