ホームページ  >  記事  >  バックエンド開発  >  パンダの DataFrame でのメソッドの並べ替えと要約のスキル

パンダの DataFrame でのメソッドの並べ替えと要約のスキル

coldplay.xixi
coldplay.xixi転載
2020-09-17 16:53:224448ブラウズ

パンダの DataFrame でのメソッドの並べ替えと要約のスキル

関連する学習の推奨事項: Python チュートリアル

##今日は

pandas データ処理このトピックの 6 番目の記事では、DataFrame の並べ替えと集計操作について説明します。

前回の記事では、主に DataFrame の

apply メソッド、つまり DataFrame の各行または列に対してブロードキャスト操作を実行する方法を紹介しました。これにより、非常に簡単にブロードキャスト操作を実行できるようになります。短時間 一定の時間内にデータ全体を処理します。今日は、ニーズに応じて DataFrame を並べ替える方法と、いくつかの要約操作の使用方法について説明します。

Sort

Sort は私たちにとって非常に基本的なニーズです。pandas では、これは要件は、

インデックスに基づいた の並べ替えと、 値に基づいた の並べ替えにさらに分割されます。まずはSeriesでの並び替え方法を見てみましょう。

Series には 2 つの並べ替え方法があり、1 つは sort_index で、その名前が示すように、これらの値は Series のインデックスに従って並べ替えられます。もう 1 つは sort_values で、Series 内の値に従って並べ替えられます。どちらのメソッドも新しいシリーズを返します:

インデックス ソート

同じことが DataFrame にも当てはまります。DataFrame には、値による並べ替えとインデックスによる並べ替えという 2 つの機能があります。ただし、DataFrame は 2 次元データであるため、使用方法がいくつか異なります。最も単純な違いは、Series には列が 1 つしかないことです。並べ替えオブジェクトは明確にわかっていますが、DataFrame はわかっていません。そのインデックスは、行インデックスと列インデックスの 2 つのタイプに分かれています。したがって、

を並べ替えるときは、並べ替える軸 (つまり axis) を指定する必要があります。

デフォルトでは、行インデックスに基づいて並べ替えられます。列インデックスに基づいて並べ替えを指定したい場合は、パラメータ axis=1 を渡す必要があります。

昇順パラメータを渡して、希望する並べ替え順序が 順方向か逆順 かを指定することもできます。

#値の並べ替え

DataFrame の値の並べ替えは異なります。行はソートできません。

は列 でのみソートできます。 by パラメーターを介して並べ替える列を渡します。これは 1 列または複数列にすることができます。

## 要素の Rank # を取得したい場合があります。 ##, 現在の要素が全体の中で何番目に位置するのか知りたいのですが、この関数はpandasにも用意されているrankメソッドです。

何気なく入力した数字の列に 7 が 2 つ含まれていることがわかります。7 はシリーズの中で最大の数字ですが、なぜランキングが 6.5 なのでしょうか?
実際には、7 が 6 位と 7 位に 2 回出現するため、非常に単純です。ここでは、すべての出現の順位を平均するため、6.5 になります。平均化したくないが、出現順に基づいて
ランキングを与える

場合は、method パラメーターを使用して必要な効果を指定できます。

#method の正当なパラメータは first に限定されるものではなく、少し一般的ではない他の使用方法もいくつかありますので、それらをまとめてリストします。

DataFrame の場合、デフォルトでは、各行の要素の全体的なランキングが行単位で計算されます。軸パラメータを使用して列単位で計算を指定することもできます。

##集計演算

最後に、DataFrame の集計操作を紹介しましょう。集計操作は、最も一般的な合計メソッドなどの 集計操作 でもあります。 1 つのバッチ データが集計されて合計されます。 DataFrame にも同様のメソッドがあります。1 つずつ見てみましょう。

最初は sum です。sum を使用して DataFrame を合計できます。パラメータが渡されない場合、デフォルトでは各行の合計が計算されます。

合計に加えて、もう 1 つの一般的に使用されるのは平均であり、行または列の平均を計算できます。

DataFrame には NA 要素が多く存在するため、skipna パラメーターを使用して欠損値を除外し、平均を計算できます。

個人的に非常に便利だと思うもう 1 つのメソッドは、DataFrame の 全体情報を返すことができる descirbe です。たとえば、各列の平均値、サンプルサイズ、標準偏差、最小値、最大値などです。これは、DataFrame 内のデータの分布を理解するために使用できる、一般的に使用される統計手法です。

紹介したメソッド以外にも、idxmax、idxmin、var、std など、DataFrame には同様の集計操作メソッドが多数あります。興味がある場合は、しかし、私の経験によれば、これは通常は使用されません。

プログラミングについてさらに詳しく知りたい場合は、php training 列に注目してください。

以上がパンダの DataFrame でのメソッドの並べ替えと要約のスキルの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjuejin.imで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。