データ分析はあらゆる業界でますます重要な側面になってきています。多くの組織は、戦略的な意思決定、傾向の予測、消費者の行動の理解のために情報に大きく依存しています。このような環境では、Python の Pandas ライブラリが強力なデバイスとして登場し、情報を適切に制御、分解、視覚化するためのさまざまな機能を提供します。これらの強力な機能の 1 つに、時間間隔によるデータのグループ化が含まれます。
この記事では、Pandas を使用してデータを時間間隔ごとにグループ化する方法に焦点を当てます。構文、わかりやすいアルゴリズム、2 つの異なるアプローチ、およびこれらのアプローチに基づいた完全に実行可能な 2 つの現実世界のコードについて説明します。
###文法###構文内:
-データフレーム。
-データをグループ化する関数。
-グループ化する列。ここでは「日付」列です。
-間隔の頻度。 (「T」は分、「H」は時間、「D」は日などを表します)
- 集計関数。
###アルゴリズム###必要なライブラリ、つまり Pandas をインポートします。
DataFrame をロードまたは作成します。
まだ変換されていない場合は、日付列を datetime オブジェクトに変換します。
pd.Grouper を使用して、必要な頻度で日付列に groupby() 関数を適用します。
sum()、mean()、およびその他の集計関数を適用する
結果を印刷または保存します。
2 つの異なるアプローチを検討します −
イラスト
現在、「Date」列は datetime オブジェクトを別の方法で処理していますが、確実に変更されるように pd.to_datetime() 関数を使用することが増えています。収集アクティビティの進行状況は、セグメントに日時オブジェクトの情報タイプがあるかどうかに依存するため、この手順は重要です。
イラスト
次の手法は、最初の手法と同様に Pandas ライブラリのインポートから始まり、DataFrame を作成します。このデータフレームは前のモデルで使用されていたものと同じですが、唯一の違いは、「日付」列に分単位のタイムスタンプが含まれることです。
コレクション アクティビティが適切に動作するには、「date」列は datetime オブジェクトである必要があり、pd.to_datetime() 関数によってこれが確実に行われます。
このセクションでは、groupby() メソッド内で pd.Grouper() 関数を使用し、専用の 15 分 (「15T」) の頻度でグループ化操作を実行します。 15 分間隔ごとに「値」エントリを集計するには、最初の方法で使用したのと同じ方法である sum() 関数を使用します。
データを時間間隔ごとにグループ化できるため、アナリストや企業はデータから有意義な洞察を抽出できます。 1 日あたりの総売上高を計算する場合でも、1 時間ごとの平均気温を取得する場合でも、15 分ごとの Web サイトのアクセス数をカウントする場合でも、データを時間間隔ごとにグループ化することで、時間の経過に伴うデータの傾向、パターン、傾向をよりよく理解できるようになります。
Python の Pandas ライブラリは強力なデータ分析ツールであることを覚えておいてください。 groupby メソッドなどの機能の使用方法を学ぶと、より効率的で熟練したデータ アナリストやデータ サイエンティストになることができます。
以上がPython Pandas で時間間隔ごとにデータをグループ化するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。