Heim >Backend-Entwicklung >Python-Tutorial >Python-Toolkit zum Formatieren und Bereinigen von Daten

Python-Toolkit zum Formatieren und Bereinigen von Daten

大家讲道理
大家讲道理Original
2016-11-08 10:23:141469Durchsuche

Die Welt ist chaotisch, ebenso wie die Daten aus der realen Welt. Ein aktueller Umfragebericht zeigt, dass Datenwissenschaftler 60 % ihrer Zeit mit der Organisation von Daten verbringen. Leider denken 57 % der Menschen, dass dies der schwierigste Teil ihrer Arbeit ist.

Das Organisieren von Daten ist zeitaufwändig, aber es wurden viele Tools entwickelt, um diesen kritischen Schritt etwas erträglicher zu machen. Die Python-Community stellt viele Bibliotheken zur Verfügung, um Daten zu organisieren – von der Formatierung von DataFrames bis zur Anonymisierung von Datensätzen.

Erzählen Sie uns von Bibliotheken, die Sie nützlich finden – wir arbeiten ständig an der Optimierung der Bibliotheken, die in Mode Python Notebooks einfließen.

Python-Toolkit zum Formatieren und Bereinigen von Daten

Dora

Dora ist für explorative Analysen konzipiert. Besonders die schmerzhaftesten Teile der automatisierten Analyse – wie die Auswahl und Extraktion von Merkmalen, die Visualisierung und, wie Sie es erraten haben, die Datenbereinigung. Funktionen im Zusammenhang mit der Datenbereinigung können:

Datentabellen lesen, die fehlende Daten enthalten und nicht standardisiert sind

Fehlenden Daten Werte zuweisen

Standardisierte Variablen

Entwickler: Nathan Epstein
Weitere Informationen: https://github.com/NathanEpstein/Dora

datacleaner

Ansonsten bereinigt Datacleaner Ihre Daten – aber erst, nachdem Ihre Daten vorhanden sind eine Pandas DataFrame-Instanz. Entwickler Randy Olson sagte: „Datacleaner ist keine Zauberei, es kann Ihre unstrukturierten Daten nicht auf magische Weise analysieren.“

Es kann Zeilen mit fehlenden Daten löschen oder den Modus oder Median der Spalte verwenden, um die fehlenden Daten zu ergänzen.“ Daten, konvertieren Sie nicht numerische Variablen in numerische Variablen. Diese Bibliothek ist sehr neu, aber angesichts der Tatsache, dass DataFrame die grundlegende Datenstruktur für die Python-Datenanalyse ist, ist es einen Versuch wert.

Entwickler: Randy Olson
Weitere Informationen: https://github.com/rhiever/datacleaner

PrettyPandas

DataFrames sind leistungsstark, können es aber nicht sein Überlegen Sie sich eine Uhr, die Sie direkt Ihrem Chef zeigen können. PrettyPandas verwendet die API im Pandas-Stil, um DataFrame in eine präsentationsbereite Tabelle zu konvertieren. Generieren Sie Datenzusammenfassungen, legen Sie Stile fest und passen Sie Datenformate, Spalten und Zeilen an. Bonus: Robuste, gut lesbare Nutzungsdokumentation.

Entwickler: Henry Hammond
Weitere Informationen: https://github.com/HHammond/PrettyPandas

tabulate

tabulate ermöglicht es Ihnen, nur einen Funktionsaufruf zu verwenden Erstellen Sie einen kleinen und attraktiven Tisch. Ideal, um Tabellen durch Anpassen der Dezimalspaltenausrichtung, Datenformatierung, Tabellenüberschriften und mehr lesbarer zu machen.

Es verfügt über eine super coole Funktion, mit der die Tabelle in verschiedenen Formaten ausgegeben werden kann: HTML, PHP oder Markdown Extra, sodass Sie andere Tools oder Sprachen verwenden können, um die von Ihnen tabellierten Daten weiterhin zu verwenden .

Entwickler: Sergey Astanin
Weitere Informationen: https://pypi.python.org/pypi/tabulate

scrubadub

Gesundheits- und Finanzbereiche, die Datenwissenschaftler häufig benötigen Datensätze zu anonymisieren. Scrubadub kann private Informationen (PII) aus Texten entfernen. Zum Beispiel:

Name (Substantiv)

E-Mail-Adresse

Weblink

Telefonnummer

Benutzername/Passwortgruppe

Skype-Benutzername

Sozialversicherungsnummer

Die Dokumentation zeigt anschaulich, wie Sie das Verhalten von Scrubadub anpassen können, z. B. indem Sie neue PII definieren oder bestimmte PII beibehalten.

Entwickler: Datascope Analytics
Weitere Informationen: http://scrubadub.readthedocs.io/en/stable/index.html

Pfeil

Lass uns sein Ehrlich gesagt: Der Umgang mit Datums- und Uhrzeitangaben in Python ist mühsam. Die lokale Zeitzone wird nicht automatisch erkannt. Für die Konvertierung von Zeitzonen und Zeitstempeln sind mehrere umständliche Codezeilen erforderlich.

Arrow zielt darauf ab, dieses Problem zu lösen und diese Funktionslücke zu schließen, sodass Sie Datums- und Uhrzeitoperationen mit weniger Code und importierten Bibliotheken abschließen können. Im Gegensatz zur Standardzeitbibliothek von Python erkennt Arrow standardmäßig automatisch Zeitzonen und UTC. Mit nur einer Codezeile können Sie eine Zeitzonenkonvertierung durchführen oder Zeitzeichenfolgen analysieren.

Entwickler: Chris Smith
Weitere Informationen: http://arrow.readthedocs.io/en/latest/

Beautifier

Die Aufgabe von Beautifier ist einfach: URLs bereinigen und E-Mail-Adressen und machen sie hübscher. Sie können E-Mails nach Domänennamen und Benutzernamen analysieren; URLs nach Domänennamen und Parametern. (UTM oder Tag)

Entwickler: Sachin Philip Mathew
Weitere Informationen: https://github.com/sachinvettithanam/beautifier

ftfy

ftfy ( korrigiert Text für Sie) nimmt schlechte Unicode-Ausgaben auf und behebt im Grunde alle Junk-Zeichen. Wenn Sie täglich mit Text arbeiten, ist diese Bibliothek, wie ein Benutzer sagt, „ein praktisches Stück Magie“. ftfy (korrigiert Text für Sie) konvertiert unordentlichen Unicode in erkennbaren Unicode. Einfach ausgedrückt: Es verarbeitet alle Müllzeichen. „quotes“ x9d wird zu „quotes“; ü wird zu ü Entwickler: Luminoso

Weitere Informationen: https://github.com/LuminosoInsight /python-ftfy


Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn