Heim  >  Artikel  >  Backend-Entwicklung  >  Verwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten

Verwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten

WBOY
WBOYOriginal
2024-01-19 08:50:151209Durchsuche

Verwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten

Verwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten

Bei der Datenanalyse und -verarbeitung stoßen wir häufig auf Situationen, in denen die aus TXT-Dateien gelesenen Daten verarbeitet werden müssen. Beispielsweise ist das Datenformat verwirrend und muss bereinigt werden. Einige Spalten sind ungültig und müssen gelöscht werden. Diese Aufgaben erfordern möglicherweise viel Arbeit und Zeit, aber wir können diese Vorgänge problemlos über die Pandas der Python-Bibliothek ausführen.

In diesem Artikel werden Codebeispiele kombiniert, um Ihnen zu zeigen, wie Sie Pandas zum Verarbeiten von TXT-Dateidaten verwenden.

  1. Stellen Sie die Pandas-Bibliothek vor

Bevor wir die Pandas-Bibliothek verwenden, müssen wir sie zuerst vorstellen. In Python-Skripten wird allgemein vereinbart, die Pandas-Bibliothek in pd umzubenennen, um nachfolgende Aufrufe zu erleichtern.

import pandas as pd
  1. TXT-Datei lesen

Zuerst müssen wir die Daten in der TXT-Datei lesen. In Pandas verwenden wir die Funktion pd.read_csv() zum Einlesen von Daten. Obwohl der Funktionsname csv enthält, eignet sich diese Funktion auch zum Lesen von TXT-Dateien.

data = pd.read_csv('data.txt', sep='    ', header=None)

Die Funktionsparameter werden wie folgt erklärt:

  • 'data.txt': Gibt den Pfad und Dateinamen der TXT-Datei an, die wir lesen müssen.
  • sep: Gibt an, dass das Datentrennzeichen „“ hier verwendet wird, um anzugeben, dass die Daten durch Tabulatoren getrennt sind, und es kann auch durch andere Symbole ersetzt werden.
  • header: Gibt an, ob die Datei Spaltennamen enthält. Wenn nicht, wird sie auf „Keine“ gesetzt.

Nachdem wir die Daten gelesen haben, können wir den Inhalt und die Form der Daten anzeigen, indem wir die Daten ausdrucken.

print(data)

Ausgabeergebnis:

   0    1    2
0  A  123  1.0
1  B  321  2.0
2  C  231  NaN
3  D  213  4.0
4  E  132  3.0

Es ist ersichtlich, dass die gelesenen Daten in Daten in Form eines DataFrame gespeichert wurden.

  1. Daten bereinigen

Die gelesenen Daten können viele Formatunregelmäßigkeiten oder Fehler aufweisen, weshalb wir die Daten bereinigen müssen. Beispielsweise fehlen möglicherweise Werte in einigen Zeilen oder Spalten, und wir müssen sie füllen oder löschen. Der Datentyp einiger Spalten entspricht möglicherweise nicht unseren Anforderungen und wir müssen sie in numerische oder Zeichenfolgentypen usw. konvertieren .

a. Zeilen mit fehlenden Werten löschen

Wir können die Funktion dropna() verwenden, um Zeilen mit fehlenden Werten zu löschen.

data_clean = data.dropna()

Diese Funktion löscht alle Zeilen, die fehlende Werte in den Daten enthalten, und gibt einen DataFrame nur mit vollständigen Daten zurück.

b. Fehlende Werte auffüllen

Wenn Zeilen mit fehlenden Werten nicht gelöscht werden können, können wir diese fehlenden Werte auffüllen. Verwenden Sie einfach die Funktion fillna().

data_fill = data.fillna(0)

Diese Funktion füllt die fehlenden Werte mit 0. Wenn Sie sie mit anderen Werten füllen möchten, können Sie den entsprechenden Wert in den Klammern übergeben.

c. Datentypen konvertieren

Bei der Datenanalyse müssen bestimmte Datentypen für die anschließende Berechnung oder Verarbeitung in numerische oder Zeichentypen umgewandelt werden. In Pandas können Sie die Funktion astype() zur Typkonvertierung verwenden.

data_conversion = data_clean.astype({'1': 'int', '2': 'str'})

Diese Funktion kann den Typ von Spalte 1 in data_clean in einen Ganzzahltyp (int) und den Typ von Spalte 2 in einen String-Typ (str) konvertieren.

  1. Neue Daten speichern

Abschließend müssen wir die bereinigten und verarbeiteten Daten in einer neuen TXT-Datei speichern. In Pandas können wir dies mit der Funktion to_csv() erreichen.

data_clean.to_csv('data_clean.txt', index=False, header=False, sep='    ')

Die Funktionsparameter werden wie folgt erklärt:

  • 'data_clean.txt': Gibt den Pfad und Dateinamen der gespeicherten Datei an.
  • index: Gibt an, ob der Zeilenindex beibehalten werden soll. Wählen Sie hier „Falsch“ aus, um ihn nicht beizubehalten.
  • header: Gibt an, ob der Spaltenname in der Datei enthalten ist. Wählen Sie hier „Falsch“ aus, um ihn auszuschließen.
  • sep: Gibt an, dass das Trennzeichen „“ hier verwendet wird, um die Verwendung eines Tabulators als Trennzeichen anzuzeigen.

Codebeispiel

Nachfolgend finden Sie das vollständige Codebeispiel, das Sie in ein Python-Skript kopieren und ausführen können.

import pandas as pd

# 读入数据
data = pd.read_csv('data.txt', sep='    ', header=None)
print('原始数据:
', data)

# 删除含有缺失值的行
data_clean = data.dropna()
print('处理后数据(删除缺失值):
', data_clean)

# 填充缺失值
data_fill = data.fillna(0)
print('处理后数据(填充缺失值):
', data_fill)

# 转换数据类型
data_conversion = data_clean.astype({'1': 'int', '2': 'str'})
print('处理后数据(类型转换):
', data_conversion)

# 保存新数据
data_clean.to_csv('data_clean.txt', index=False, header=False, sep='    ')

In diesem Artikel erfahren Sie, wie Sie mit Pandas TXT-Dateidaten einfach verarbeiten, einschließlich Lesen, Bereinigen, Konvertieren und Speichern von Daten. Als eines der wichtigen Datenverarbeitungstools in Python können Pandas uns dabei helfen, Data-Mining- und Analyseaufgaben effizienter zu erledigen.

Das obige ist der detaillierte Inhalt vonVerwenden Sie Pandas, um TXT-Dateidaten einfach zu verarbeiten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn