Heim >Backend-Entwicklung >Python-Tutorial >Wie ersetzt man Leerzeichenwerte durch NaN in einem Pandas-Datenrahmen?

Wie ersetzt man Leerzeichenwerte durch NaN in einem Pandas-Datenrahmen?

Susan Sarandon
Susan SarandonOriginal
2024-10-30 10:13:27332Durchsuche

How do you replace whitespace values with NaN in a Pandas dataframe?

Leerwerte durch NaNs in Pandas ersetzen

Problem

Leerzeichenwerte in einem Pandas-Datenrahmen zu finden und sie durch NaNs zu ersetzen, kann eine Herausforderung sein. Das Ziel besteht darin, einen Datenrahmen mit leeren String-Werten in einen mit NaN-Werten umzuwandeln und so möglicherweise die Datenverarbeitung und -analyse zu verbessern.

Lösung

Die Methode df.replace() bietet eine elegante Lösung, die es ermöglicht Sie können Werte basierend auf regulären Ausdrücken ersetzen:

<code class="python">df.replace(r'^\s*$', np.nan, regex=True)</code>

In diesem Regex-Muster entspricht ^ dem Anfang der Zeichenfolge, s* entspricht null oder mehr Leerzeichen und $ entspricht dem Ende der Zeichenfolge. Daher prüft dieser reguläre Ausdruck, ob Zeichenfolgen vollständig aus Leerzeichen oder einer leeren Zeichenfolge bestehen.

Implementierung

Anwenden dieser Lösung auf den Beispieldatenrahmen:

<code class="python">df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],     
    [-0.222552, '   ', 4],
    [-1.176781,  'qux', '  '],         
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

result = df.replace(r'^\s*$', np.nan, regex=True)

print(result)</code>

Dies erzeugt die gewünschte Ausgabe:

                   A    B   C
2000-01-01 -0.532681  foo   0
2000-01-02  1.490752  bar   1
2000-01-03 -1.387326  foo   2
2000-01-04  0.814772  baz NaN
2000-01-05 -0.222552  NaN   4
2000-01-06 -1.176781  qux NaN

Verbesserung

Wie von Temak hervorgehoben, kann das Regex-Muster in r'^s $' geändert werden, wenn gültige Daten möglicherweise Leerzeichen enthalten, um nur mit vorhandenen Zeichenfolgen übereinzustimmen komplett aus Leerzeichen:

<code class="python">df.replace(r'^\s+$', np.nan, regex=True)</code>

Das obige ist der detaillierte Inhalt vonWie ersetzt man Leerzeichenwerte durch NaN in einem Pandas-Datenrahmen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn