Heim > Artikel > Backend-Entwicklung > Wie ersetze ich leere Zeichenfolgen (Leerzeichen) durch NaN in einem Pandas DataFrame?
Ersetzen von Leerwerten (Leerzeichen) durch NaN in Pandas
Wie können Sie Leerwerte (Leerzeichen) in Pandas effizient durch NaN ersetzen? Datenrahmen?
Erster Ansatz:
Der folgende Code ist in der Lage, leere Werte durch „Keine“ zu ersetzen, aber er ist ineffizient und nicht die pythonischste Lösung:
<code class="python">for i in df.columns: df[i][df[i].apply(lambda i: True if re.search('^\s*$', str(i)) else False)] = None</code>
Optimale Lösung:
Pandas bietet eine präzisere und effizientere Lösung durch die df.replace()-Methode:
<code class="python">df = pd.DataFrame([ [-0.532681, 'foo', 0], [1.490752, 'bar', 1], [-1.387326, 'foo', 2], [0.814772, 'baz', ' '], [-0.222552, ' ', 4], [-1.176781, 'qux', ' '], ], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06')) # replace field that's entirely space (or empty) with NaN print(df.replace(r'^\s*$', np.nan, regex=True))</code>
Dieser Code ersetzt Leerzeichen Werte (reguläre Ausdrücke: ^s*$) mit NaN, wodurch die gewünschte Ausgabe erzeugt wird:
A B C 2000-01-01 -0.532681 foo 0 2000-01-02 1.490752 bar 1 2000-01-03 -1.387326 foo 2 2000-01-04 0.814772 baz NaN 2000-01-05 -0.222552 NaN 4 2000-01-06 -1.176781 qux NaN
Hinweis:
Wenn Sie gültige Daten verarbeiten müssen, kann dies der Fall sein Leerzeichen enthalten, können Sie den regulären Ausdruck in r'^s $' ändern, was nur auf Felder zutrifft, die vollständig aus Leerzeichen bestehen.
Das obige ist der detaillierte Inhalt vonWie ersetze ich leere Zeichenfolgen (Leerzeichen) durch NaN in einem Pandas DataFrame?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!