Heim >Backend-Entwicklung >Python-Tutorial >Python-Toolkit zum Formatieren und Bereinigen von Daten
Die Welt ist chaotisch, ebenso wie die Daten aus der realen Welt. Ein aktueller Umfragebericht zeigt, dass Datenwissenschaftler 60 % ihrer Zeit mit der Organisation von Daten verbringen. Leider denken 57 % der Menschen, dass dies der schwierigste Teil ihrer Arbeit ist.
Das Organisieren von Daten ist zeitaufwändig, aber es wurden viele Tools entwickelt, um diesen kritischen Schritt etwas erträglicher zu machen. Die Python-Community stellt viele Bibliotheken zur Verfügung, um Daten zu organisieren – von der Formatierung von DataFrames bis zur Anonymisierung von Datensätzen.
Erzählen Sie uns von Bibliotheken, die Sie nützlich finden – wir arbeiten ständig an der Optimierung der Bibliotheken, die in Mode Python Notebooks einfließen.
Dora
Dora ist für explorative Analysen konzipiert. Besonders die schmerzhaftesten Teile der automatisierten Analyse – wie die Auswahl und Extraktion von Merkmalen, die Visualisierung und, wie Sie es erraten haben, die Datenbereinigung. Funktionen im Zusammenhang mit der Datenbereinigung können:
Datentabellen lesen, die fehlende Daten enthalten und nicht standardisiert sind
Fehlenden Daten Werte zuweisen
Standardisierte Variablen
Entwickler: Nathan Epstein
Weitere Informationen: https://github.com/NathanEpstein/Dora
datacleaner
Ansonsten bereinigt Datacleaner Ihre Daten – aber erst, nachdem Ihre Daten vorhanden sind eine Pandas DataFrame-Instanz. Entwickler Randy Olson sagte: „Datacleaner ist keine Zauberei, es kann Ihre unstrukturierten Daten nicht auf magische Weise analysieren.“
Es kann Zeilen mit fehlenden Daten löschen oder den Modus oder Median der Spalte verwenden, um die fehlenden Daten zu ergänzen.“ Daten, konvertieren Sie nicht numerische Variablen in numerische Variablen. Diese Bibliothek ist sehr neu, aber angesichts der Tatsache, dass DataFrame die grundlegende Datenstruktur für die Python-Datenanalyse ist, ist es einen Versuch wert.
Entwickler: Randy Olson
Weitere Informationen: https://github.com/rhiever/datacleaner
PrettyPandas
DataFrames sind leistungsstark, können es aber nicht sein Überlegen Sie sich eine Uhr, die Sie direkt Ihrem Chef zeigen können. PrettyPandas verwendet die API im Pandas-Stil, um DataFrame in eine präsentationsbereite Tabelle zu konvertieren. Generieren Sie Datenzusammenfassungen, legen Sie Stile fest und passen Sie Datenformate, Spalten und Zeilen an. Bonus: Robuste, gut lesbare Nutzungsdokumentation.
Entwickler: Henry Hammond
Weitere Informationen: https://github.com/HHammond/PrettyPandas
tabulate
tabulate ermöglicht es Ihnen, nur einen Funktionsaufruf zu verwenden Erstellen Sie einen kleinen und attraktiven Tisch. Ideal, um Tabellen durch Anpassen der Dezimalspaltenausrichtung, Datenformatierung, Tabellenüberschriften und mehr lesbarer zu machen.
Es verfügt über eine super coole Funktion, mit der die Tabelle in verschiedenen Formaten ausgegeben werden kann: HTML, PHP oder Markdown Extra, sodass Sie andere Tools oder Sprachen verwenden können, um die von Ihnen tabellierten Daten weiterhin zu verwenden .
Entwickler: Sergey Astanin
Weitere Informationen: https://pypi.python.org/pypi/tabulate
scrubadub
Gesundheits- und Finanzbereiche, die Datenwissenschaftler häufig benötigen Datensätze zu anonymisieren. Scrubadub kann private Informationen (PII) aus Texten entfernen. Zum Beispiel:
Name (Substantiv)
E-Mail-Adresse
Weblink
Telefonnummer
Benutzername/Passwortgruppe
Skype-Benutzername
Sozialversicherungsnummer
Die Dokumentation zeigt anschaulich, wie Sie das Verhalten von Scrubadub anpassen können, z. B. indem Sie neue PII definieren oder bestimmte PII beibehalten.
Entwickler: Datascope Analytics
Weitere Informationen: http://scrubadub.readthedocs.io/en/stable/index.html
Pfeil
Lass uns sein Ehrlich gesagt: Der Umgang mit Datums- und Uhrzeitangaben in Python ist mühsam. Die lokale Zeitzone wird nicht automatisch erkannt. Für die Konvertierung von Zeitzonen und Zeitstempeln sind mehrere umständliche Codezeilen erforderlich.
Arrow zielt darauf ab, dieses Problem zu lösen und diese Funktionslücke zu schließen, sodass Sie Datums- und Uhrzeitoperationen mit weniger Code und importierten Bibliotheken abschließen können. Im Gegensatz zur Standardzeitbibliothek von Python erkennt Arrow standardmäßig automatisch Zeitzonen und UTC. Mit nur einer Codezeile können Sie eine Zeitzonenkonvertierung durchführen oder Zeitzeichenfolgen analysieren.
Entwickler: Chris Smith
Weitere Informationen: http://arrow.readthedocs.io/en/latest/
Beautifier
Die Aufgabe von Beautifier ist einfach: URLs bereinigen und E-Mail-Adressen und machen sie hübscher. Sie können E-Mails nach Domänennamen und Benutzernamen analysieren; URLs nach Domänennamen und Parametern. (UTM oder Tag)
Entwickler: Sachin Philip Mathew
Weitere Informationen: https://github.com/sachinvettithanam/beautifier
ftfy
ftfy ( korrigiert Text für Sie) nimmt schlechte Unicode-Ausgaben auf und behebt im Grunde alle Junk-Zeichen. Wenn Sie täglich mit Text arbeiten, ist diese Bibliothek, wie ein Benutzer sagt, „ein praktisches Stück Magie“. ftfy (korrigiert Text für Sie) konvertiert unordentlichen Unicode in erkennbaren Unicode. Einfach ausgedrückt: Es verarbeitet alle Müllzeichen. „quotes“ x9d wird zu „quotes“; ü wird zu ü Entwickler: Luminoso
Weitere Informationen: https://github.com/LuminosoInsight /python-ftfy