Heim >Backend-Entwicklung >Python-Tutorial >Wie entferne ich doppelte Spalten in einem Pandas-Datenrahmen?

Wie entferne ich doppelte Spalten in einem Pandas-Datenrahmen?

DDDOriginal: 2024-11-01 14:08:02354Durchsuche

How to Remove Duplicate Columns in a Pandas Dataframe?

Doppelte Spalten in einem Pandas-Datenrahmen entfernen

Beim Umgang mit Datenrahmen, die doppelte Spalten enthalten, ist es für effektive Daten erforderlich, diese Redundanzen zu beseitigen Analyse. Dieser Artikel bietet eine umfassende Lösung zum Entfernen doppelter Spalten in Pandas und geht auf alle Aspekte des Problems ein.

Doppelte Spaltennamen

Um Spalten zu entfernen, die ausschließlich auf doppelten Namen basieren, Eine einfache Lösung ist:

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>

Diese Zeile prüft auf doppelte Spaltennamen und behält nur diejenigen bei, die vorhanden sind einzigartig.

Doppelte Spaltenwerte

Wenn das Ziel darin besteht, Spalten basierend auf doppelten Werten zu entfernen, ist ein anderer Ansatz erforderlich, ohne den Datenrahmen zu transponieren:

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>

Diese Methode prüft, ob in jeder Spalte doppelte Werte vorhanden sind, und eliminiert Spalten, in denen sich alle Werte befinden Duplikate.

Duplizierte Indizes

Um doppelte Indizes zu entfernen, gehen Sie ähnlich vor:

<code class="python">df = df.loc[~df.index.duplicated(),:].copy()</code>

Zusätzliche Hinweise

Die bereitgestellten Lösungen gehen davon aus, dass der Datenrahmen bereits in eine Variable mit dem Namen geladen ist df.
~df.columns.duplicated() und ~df.index.duplicated() geben boolesche Arrays zurück, die angeben, welche Spalten oder Indizes Duplikate sind.
Die all()-Funktion in ~df .apply(lambda x: x.duplicated(),axis=1).all() prüft, ob alle Werte innerhalb einer Spalte vorhanden sind Duplikate.
Die Methode .copy() wird verwendet, um einen neuen Datenrahmen mit den Änderungen zu erstellen, wodurch Probleme beim Ändern des vorhandenen Datenrahmens vermieden werden.

Das obige ist der detaillierte Inhalt vonWie entferne ich doppelte Spalten in einem Pandas-Datenrahmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

pandas Boolean if for Lambda copy function this column issue

Stellungnahme：

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Vorheriger Artikel：So berechnen Sie Verzeichnisgrößen in Python: Ein MethodenvergleichNächster Artikel：So berechnen Sie Verzeichnisgrößen in Python: Ein Methodenvergleich

In Verbindung stehende Artikel

Mehr sehen