シンプルでわかりやすいパンダの並べ替えチュートリアル: データの並べ替えの問題に簡単に対処できます。具体的なコード例が必要です。
データの分析と処理では、データの特性やパターンをよりよく理解するために、データの並べ替え Sort を実行することが必要になることがよくあります。 Python では、pandas ライブラリはデータ分析と処理のための重要なツールの 1 つです。このチュートリアルでは、パンダを使用してデータを迅速かつ柔軟に並べ替える方法を説明し、具体的なコード例を示します。
1. データの並べ替えの基本概念
並べ替えを行う前に、データの並べ替えの基本概念を理解する必要があります。 pandas では、データを並べ替える主な方法が 2 つあります。行による並べ替えと列による並べ替えです。
行ごとに並べ替え: 特定の列の値に従ってデータの行全体を並べ替えます。これにより、データの特定の列のランキングをすばやく見つけることができます。
列で並べ替え: 数値のサイズに従ってデータの列全体を並べ替えます。これにより、特定の特性に従ってデータが分類され、理解と分析が容易になります。
2. 行による並べ替え
1. 単一列による並べ替え
まず、データの並べ替えプロセスを示すために、単純なデータ セットを作成する必要があります。
import pandas as pd data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [25, 32, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data)
次に、「sort_values」関数を使用してデータを並べ替えます。デフォルトでは、この関数は指定された列で昇順にソートします。
df_sorted = df.sort_values(by='年龄') print(df_sorted)
実行結果は次のとおりです。
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
「年齢」列で並べ替えた後、データが昇順で並べ替えられていることがわかります。
2. 複数の列で並べ替える
複数の列で並べ替える必要がある場合は、「by」パラメーターに複数の列名を渡すだけです。
df_sorted = df.sort_values(by=['年龄', '分数']) print(df_sorted)
実行結果は次のとおりです。
姓名 年龄 分数 3 赵六 19 75 0 张三 25 80 2 王五 28 85 1 李四 32 90
ご覧のとおり、データは最初に「年齢」列によって並べ替えられ、次に「スコア」列によって並べ替えられます。
3. 列による並べ替え
列による並べ替えは、データをよりよく理解して分析するために、主に数値サイズに従ってデータの列全体を並べ替えることです。
1. 列名による並べ替え
「sort_index」関数を使用して列を並べ替えることができます。デフォルトでは、この関数は列名のアルファベット順にソートします。
df_sorted = df.sort_index(axis=1) print(df_sorted)
実行結果は次のとおりです。
分数 年龄 姓名 0 80 25 张三 1 90 32 李四 2 85 28 王五 3 75 19 赵六
データが列名「Score」、「Age」、「Name」によってアルファベット順に並べ替えられていることがわかります。
2. 列データによる並べ替え
「by」パラメーターに列データを渡すだけで、列データのサイズに基づいて並べ替えることもできます。
df_sorted = df.sort_values(by='年龄', axis=1) print(df_sorted)
実行結果は次のとおりです。
姓名 分数 年龄 0 张三 80 25 1 李四 90 32 2 王五 85 28 3 赵六 75 19
ご覧のとおり、データは最初に「年齢」列によって並べ替えられ、次に対応する列データによって並べ替えられます。
4. その他の並べ替えパラメーター
基本的な並べ替え方法に加えて、pandas は昇順並べ替え、降順並べ替え、欠損値処理などの他の便利な並べ替えパラメーターも提供します。
「sort_values」関数では、「ascending」パラメータを使用して昇順または降順の並べ替えを指定できます。デフォルトでは、このパラメータは「True」で、昇順にソートされます。
df_sorted = df.sort_values(by='年龄', ascending=False) print(df_sorted)
実行結果は次のとおりです。
姓名 年龄 分数 1 李四 32 90 2 王五 28 85 0 张三 25 80 3 赵六 19 75
ご覧のとおり、データは「年齢」列に従って降順に並べ替えられています。
昇順および降順の並べ替えに加えて、並べ替えプロセス中に欠損値を処理することもできます。 「sort_values」関数では、「na_position」パラメータを使用して欠損値の処理方法を指定できます。デフォルトでは、このパラメータは「last」で、欠損値が最後に並べ替えられます。このパラメータが「first」に設定されている場合、欠損値が最初に並べ替えられます。
data = {'姓名': ['张三', '李四', '王五', None], '年龄': [25, None, 28, 19], '分数': [80, 90, 85, 75]} df = pd.DataFrame(data) df_sorted = df.sort_values(by='年龄', na_position='first') print(df_sorted)
実行結果は次のとおりです。
姓名 年龄 分数 1 李四 NaN 90 3 None 19.0 75 0 张三 25.0 80 2 王五 28.0 85
「年齢」列で並べ替えると、欠損値が最初に配置されることがわかります。
要約すると、このチュートリアルでは、行による並べ替えと列による並べ替えを含む、シンプルでわかりやすいパンダの並べ替えチュートリアルを紹介し、具体的なコード例を示します。このチュートリアルを学習することで、データの分類の問題に簡単に対処し、データ分析と処理に柔軟に使用できるようになると思います。
以上がデータの並べ替えの問題に簡単に対処する: シンプルでわかりやすいパンダの並べ替えガイドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。