Heim >Backend-Entwicklung >Python-Tutorial >Lösen Sie Datensortierungsprobleme einfach: einfache und leicht verständliche Pandas-Sortieranleitung

Lösen Sie Datensortierungsprobleme einfach: einfache und leicht verständliche Pandas-Sortieranleitung

PHPzOriginal: 2024-01-24 09:05:16782Durchsuche

Einfaches und leicht verständliches Pandas-Sortier-Tutorial: Ermöglicht Ihnen den einfachen Umgang mit Datensortierungsproblemen. Es sind spezifische Codebeispiele erforderlich.

Bei der Datenanalyse und -verarbeitung ist es häufig erforderlich, die Daten zu sortieren, um sie besser zu sortieren die Eigenschaften und Muster der Daten verstehen. In Python ist die Pandas-Bibliothek eines der wichtigen Werkzeuge für die Datenanalyse und -verarbeitung. In diesem Tutorial wird erklärt, wie Sie mit Pandas Daten schnell und flexibel sortieren können, und es werden konkrete Codebeispiele bereitgestellt.

1. Grundkonzepte der Datensortierung

Vor dem Sortieren müssen wir die Grundkonzepte der Datensortierung verstehen. In Pandas gibt es zwei Hauptmethoden zum Sortieren von Daten: Sortieren nach Zeile und Sortieren nach Spalte.

Nach Zeile sortieren: Sortieren Sie die gesamte Datenzeile nach dem Wert einer bestimmten Spalte oder Spalten. Dadurch kann schnell die Rangfolge einer oder mehrerer Datenspalten ermittelt werden.

Nach Spalte sortieren: Sortieren Sie die gesamte Datenspalte nach numerischer Größe. Dadurch werden die Daten nach einem bestimmten Merkmal sortiert und so leichter verständlich und auswertbar.

2. Nach Zeilen sortieren

1. Nach einzelner Spalte sortieren

Zuerst müssen wir einen einfachen Datensatz erstellen, um den Prozess der Datensortierung zu demonstrieren.

import pandas as pd

data = {'姓名': ['张三', '李四', '王五', '赵六'],
        '年龄': [25, 32, 28, 19],
        '分数': [80, 90, 85, 75]}

df = pd.DataFrame(data)

Als nächstes können wir die Daten mit der Funktion „sort_values“ sortieren. Standardmäßig sortiert diese Funktion in aufsteigender Reihenfolge nach der angegebenen Spalte.

df_sorted = df.sort_values(by='年龄')
print(df_sorted)

Die laufenden Ergebnisse sind wie folgt:

   姓名  年龄  分数
3  赵六  19  75
0  张三  25  80
2  王五  28  85
1  李四  32  90

Sie können sehen, dass nach der Sortierung nach der Spalte „Alter“ die Daten in aufsteigender Reihenfolge sortiert werden.

2. Nach mehreren Spalten sortieren

Wenn wir nach mehreren Spalten sortieren müssen, müssen wir nur mehrere Spaltennamen im Parameter „by“ übergeben.

df_sorted = df.sort_values(by=['年龄', '分数'])
print(df_sorted)

Die laufenden Ergebnisse sind wie folgt:

   姓名  年龄  分数
3  赵六  19  75
0  张三  25  80
2  王五  28  85
1  李四  32  90

Sie können sehen, dass die Daten zuerst nach der Spalte „Alter“ und dann nach der Spalte „Punktzahl“ sortiert werden.

3. Sortieren nach Spalte

Sortieren nach Spalte dient hauptsächlich dazu, die gesamte Datenspalte nach numerischer Größe zu sortieren, um die Daten besser zu verstehen und zu analysieren.

1. Nach Spaltennamen sortieren

Wir können die Funktion „sort_index“ verwenden, um die Spalten zu sortieren. Standardmäßig sortiert diese Funktion alphabetisch nach Spaltennamen.

df_sorted = df.sort_index(axis=1)
print(df_sorted)

Die laufenden Ergebnisse lauten wie folgt:

   分数  年龄  姓名
0  80  25  张三
1  90  32  李四
2  85  28  王五
3  75  19  赵六

Sie können sehen, dass die Daten in alphabetischer Reihenfolge nach den Spaltennamen „Punktzahl“, „Alter“ und „Name“ sortiert sind.

2. Nach Spaltendaten sortieren

Wir können auch nach der Größe der Spaltendaten sortieren, indem Sie einfach die Spaltendaten im Parameter „by“ übergeben.

df_sorted = df.sort_values(by='年龄', axis=1)
print(df_sorted)

Die laufenden Ergebnisse lauten wie folgt:

   姓名  分数  年龄
0  张三  80  25
1  李四  90  32
2  王五  85  28
3  赵六  75  19

Sie können sehen, dass die Daten zuerst nach der Spalte „Alter“ und dann nach den entsprechenden Spaltendaten sortiert werden.

4. Andere Sortierparameter

Zusätzlich zur grundlegenden Sortiermethode bietet Pandas auch einige andere nützliche Sortierparameter, wie z. B. aufsteigende Sortierung, absteigende Sortierung, Verarbeitung fehlender Werte usw.

In der Funktion „sort_values“ können wir den Parameter „ascending“ verwenden, um eine aufsteigende oder absteigende Sortierung festzulegen. Standardmäßig ist dieser Parameter „True“, wodurch in aufsteigender Reihenfolge sortiert wird.

df_sorted = df.sort_values(by='年龄', ascending=False)
print(df_sorted)

Die laufenden Ergebnisse sind wie folgt:

   姓名  年龄  分数
1  李四  32  90
2  王五  28  85
0  张三  25  80
3  赵六  19  75

Sie können sehen, dass die Daten in absteigender Reihenfolge nach der Spalte „Alter“ sortiert sind.

Neben der auf- und absteigenden Sortierung können wir auch mit fehlenden Werten während des Sortiervorgangs umgehen. In der Funktion „sort_values“ können wir mit dem Parameter „na_position“ festlegen, wie mit fehlenden Werten umgegangen wird. Standardmäßig ist dieser Parameter „last“, wodurch fehlende Werte zuletzt sortiert werden. Wenn dieser Parameter auf „first“ gesetzt ist, werden fehlende Werte zuerst sortiert.

data = {'姓名': ['张三', '李四', '王五', None],
        '年龄': [25, None, 28, 19],
        '分数': [80, 90, 85, 75]}

df = pd.DataFrame(data)

df_sorted = df.sort_values(by='年龄', na_position='first')
print(df_sorted)

Die laufenden Ergebnisse sind wie folgt:

    姓名    年龄  分数
1   李四    NaN  90
3  None  19.0  75
0   张三  25.0  80
2   王五  28.0  85

Sie können sehen, dass beim Sortieren nach der Spalte „Alter“ die fehlenden Werte zuerst platziert werden.

Zusammenfassend lässt sich sagen, dass dieses Tutorial ein einfaches und leicht verständliches Tutorial zum Pandas-Sortieren vorstellt, einschließlich Sortieren nach Zeile und Sortieren nach Spalte, und spezifische Codebeispiele bereitstellt. Durch das Studium dieses Tutorials glaube ich, dass Sie Datensortierungsprobleme leicht lösen und es flexibel bei der Datenanalyse und -verarbeitung verwenden können.

Das obige ist der detaillierte Inhalt vonLösen Sie Datensortierungsprobleme einfach: einfache und leicht verständliche Pandas-Sortieranleitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python pandas 数据分析

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：Detaillierte Erläuterung der Schritte zum Lösen der Umkehrung einer Matrix mithilfe der Numpy-BibliothekNächster Artikel：Detaillierte Erläuterung der Schritte zum Lösen der Umkehrung einer Matrix mithilfe der Numpy-Bibliothek

In Verbindung stehende Artikel

Mehr sehen