Heim  >  Artikel  >  Backend-Entwicklung  >  Wie entferne ich doppelte Spalten in Python-DataFrames?

Wie entferne ich doppelte Spalten in Python-DataFrames?

Mary-Kate Olsen
Mary-Kate OlsenOriginal
2024-11-04 08:11:02716Durchsuche

How to Remove Duplicate Columns in Python DataFrames?

Entfernen doppelter Spalten in Python-Datenrahmen

Bei der Arbeit mit einem Datenrahmen können häufig doppelte Spalten entstehen, die zu Redundanzen führen und möglicherweise Verwirrung stiften. Dies kann besonders frustrierend sein, wenn Sie nur eindeutige Spalten beibehalten möchten. Glücklicherweise gibt es einfache Lösungen zum Entfernen doppelter Spalten in Python-Pandas.

Lösung zum Entfernen von Spalten nach Namen

Um doppelte Spalten basierend auf ihren Namen zu entfernen, verwenden Sie Folgendes line:

<code class="python">df = df.loc[:,~df.columns.duplicated()].copy()</code>

Dieser Ansatz verwendet den ~-Operator, um die von df.columns.duplicated() zurückgegebenen booleschen Werte zu invertieren, die nach doppelten Spaltennamen suchen. Das resultierende boolesche Array wird dann verwendet, um nur die nicht duplizierten Spalten in der df.loc-Indizierung auszuwählen. Die Methode .copy() wurde hinzugefügt, um potenzielle Fehler bei der späteren Änderung des ursprünglichen Datenrahmens zu vermeiden.

Lösung zum Entfernen von Duplikaten nach Werten

Angenommen, Sie möchten doppelte Spalten entfernen indem wir ihre Werte überprüfen, nicht nur ihre Namen. Dies kann mit dem folgenden Code erreicht werden:

<code class="python">df = df.loc[:,~df.apply(lambda x: x.duplicated(),axis=1).all()].copy()</code>

Diese Lösung vermeidet das Transponieren des Datenrahmens, was bei großen Datenrahmen zeitaufwändig sein kann. Es wendet eine Lambda-Funktion auf jede Spalte an, um nach doppelten Werten zu suchen. Das resultierende boolesche Array wird dann verwendet, um nur die Spalten ohne doppelte Werte auszuwählen.

Hinweis: Seien Sie vorsichtig, wenn Sie den wertbasierten Ansatz verwenden. In bestimmten Fällen führt es möglicherweise nicht immer zu den gewünschten Ergebnissen.

Zusätzliche Tipps

  • Um doppelte Zeilen zu entfernen, wenden Sie dieselbe Technik mit df auf den Index an. loc[~df.index.duplicated(),:].
  • Verwenden Sie die Methode drop_duplicates(), um doppelte Zeilen basierend auf bestimmten Spalten zu entfernen.

Das obige ist der detaillierte Inhalt vonWie entferne ich doppelte Spalten in Python-DataFrames?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Vorheriger Artikel:Was ist maschinelles Lernen?Nächster Artikel:Was ist maschinelles Lernen?