Heim > Artikel > Backend-Entwicklung > DataFrame nutzt Pandas für die Datenverarbeitung
Verwandte Lernempfehlungen: Python-Tutorial
Dies ist der zweite Artikel zum Thema Pandas-Datenverarbeitung. Sprechen wir über die wichtigste Datenstruktur in Pandas – DataFrame.
Im vorherigen Artikel haben wir die Verwendung von Series vorgestellt und auch erwähnt, dass Series einem eindimensionalen Array entspricht, Pandas jedoch viele praktische und benutzerfreundliche APIs für uns kapselt. Der DataFrame kann einfach als ein Diktat verstanden werden, das aus Series besteht und so die Daten in eine zweidimensionale Tabelle zusammenfügt. Es bietet uns außerdem viele Schnittstellen für die Datenverarbeitung auf Tabellenebene und die Stapeldatenverarbeitung, wodurch die Schwierigkeit der Datenverarbeitung erheblich verringert wird.
Zeilenindex und Spaltenindex, mit denen wir die entsprechenden Zeilen und Spalten einfach abrufen können. Dadurch wird die Schwierigkeit, Daten für die Datenverarbeitung zu finden, erheblich reduziert.
Beginnen wir zunächst mit der einfachsten Frage, wie man einen DataFrame erstellt.Verwenden Sie den Schlüssel als Spaltennamen und den Wert als entsprechenden Wert, um einen DataFrame für uns zu erstellen.
Wenn wir in Jupyter ausgeben, wird uns der Inhalt des DataFrame automatisch in Tabellenform angezeigt.als Zahlen als Indizes, um Spalten für uns zu erstellen:
Wenn wir das Spaltenfeld erstellen, übergeben wir eine Zeichenfolgenliste, um den Spaltennamen dafür anzugeben:Eine weitere sehr leistungsstarke Funktion von Pandas besteht darin, dass es Daten aus Dateien in verschiedenen Formaten lesen kann, um DataFrame zu erstellen, wie z. B. häufig verwendetes Excel, CSV und sogar. Es kann auch eine Datenbank sein.
Für strukturierte Daten wie Excel, CSV, JSON usw. bietet Pandas eine spezielle API. Wir können die entsprechende API finden und verwenden:
Wenn sie in einem speziellen Format vorliegen, spielt es keine Rolle . Wir verwenden read_table, das Daten aus verschiedenen Textdateien lesen und die Erstellung durch Übergabe von Parametern wie Trennzeichen abschließen kann. Im vorherigen Artikel, der den Dimensionsreduktionseffekt von PCA überprüft, haben wir beispielsweise Daten aus einer Datei im .data-Format gelesen. Das Trennzeichen zwischen den Spalten in dieser Datei ist ein Leerzeichen, nicht das Komma oder Tabellenzeichen von csv. Wir übergeben den Parameter sep und geben das Trennzeichen an, um das Lesen der Daten abzuschließen.
Der Standard-Header = 0bedeutet, dass die erste Zeile als Spaltenname verwendet wird. Wenn der Spaltenname nicht in den Daten vorhanden ist, muss header=None angegeben werden, andernfalls treten Probleme auf. Wir müssen selten Spaltennamen mit mehreren Ebenen verwenden. Daher besteht die am häufigsten verwendete Methode darin, den Standardwert zu übernehmen oder ihn auf „Keine“ zu setzen. Unter all diesen
Methoden zum Erstellen eines DataFrames wird am häufigsten die letzte verwendet: das Lesen aus einer Datei. Denn wenn wir maschinelles Lernen betreiben oder an einigen Wettbewerben in Kaggle teilnehmen, werden uns die Daten oft vorgefertigt und in Form von Dateien zur Verfügung gestellt. Es gibt nur sehr wenige Fälle, in denen wir Daten selbst erstellen müssen. Wenn es sich um ein tatsächliches Arbeitsszenario handelt, werden die Daten zwar nicht in Dateien gespeichert, es gibt jedoch eine Quelle, die normalerweise auf einigen Big-Data-Plattformen gespeichert ist, und das Modell erhält Trainingsdaten von diesen Plattformen.Im Allgemeinen verwenden wir selten andere Methoden zum Erstellen von DataFrame. Wir haben ein gewisses Verständnis und konzentrieren uns darauf, die Methode zum Lesen aus Dateien zu beherrschen.
Im Folgenden werden einige gängige Operationen von Pandas vorgestellt, die ich bereits kannte, bevor ich lernte, Pandas systematisch zu verwenden. Der Grund, sie zu verstehen, ist ebenfalls sehr einfach, da sie so häufig verwendet werden, dass man sagen kann, dass es sich um „Inhalte des gesunden Menschenverstandes handelt, die bekannt und verstanden werden müssen“.
Sie akzeptiert einen Parameter und ermöglicht es uns, ihn anzugeben, um die Anzahl der Daten anzuzeigen, die wir von Anfang an angeben.
tail. Dadurch können wir die zuletzt angegebene Anzahl von Daten im DataFrame anzeigen:
Es gibt zwei Methoden, um die angegebenen Spalten in DataFrame abzurufen. Wir können
Spaltennamen hinzufügenoder wir können Elemente durch Diktieren finden zur Abfrage:
gleichzeitig mehrere Spalten lesen Wenn mehrere Spalten vorhanden sind, wird nur eine Methode unterstützt, nämlich das Abfragen von Elementen über dict. Es ermöglicht den Empfang einer eingehenden Liste und das Auffinden der Daten, die den Spalten in der Liste entsprechen. Das zurückgegebene Ergebnis ist ein neuer DataFrame, der aus diesen neuen Spalten besteht. Wir können del verwenden, um eine Spalte zu löschen, die wir nicht benötigen: Es ist auch sehr einfach, dem DataFrame direkt einen Wert zuzuweisen, wie bei der Diktatzuweisung: :
und nach der Konvertierung in ein Numpy-Array alle Daten denselben Typ haben. Dann findet Pandas einen gemeinsamen Typ für alle Spalten, weshalb man oft einen Objekttyp erhält. Daher ist es am besten, den Typ vor der Verwendung von .values zu überprüfen, um sicherzustellen, dass aufgrund des Typs keine Fehler auftreten.
Einige Berufsorganisationen haben Statistiken erstellt. Für einen Algorithmus-Ingenieur werden etwa 70 % der Zeit in die Datenverarbeitung investiert. Der tatsächliche Zeitaufwand für das Schreiben des Modells und das Anpassen der Parameter kann weniger als 20 % betragen. Daraus können wir die Notwendigkeit und Bedeutung der Datenverarbeitung erkennen. Im Bereich Python ist Pandas das beste Skalpell und die beste Toolbox für die Datenverarbeitung. Ich hoffe, dass jeder es beherrschen kann.
DataFrame: Manchmal ist es für uns unpraktisch, Pandas zu verwenden. Wenn wir die entsprechenden Originaldaten erhalten möchten, können wir .values direkt verwenden, um das Numpy-Array abzurufen entsprechend ZusammenfassungIm heutigen Artikel haben wir etwas über die Beziehung zwischen DataFrame und Series gelernt und außerdem einige Grundlagen und die allgemeine Verwendung von DataFrame kennengelernt. Obwohl DataFrame ungefähr als ein aus Reihen bestehendes Diktat betrachtet werden kann, ist es tatsächlich eine separate Datenstruktur, verfügt aber auch über viele eigene APIs, unterstützt viele ausgefallene Operationen und ist für uns ein leistungsstarkes Werkzeug zur Datenverarbeitung.
Wenn Sie mehr über das Programmieren erfahren möchten, achten Sie bitte auf die Rubrik „PHP-Schulung“!
Das obige ist der detaillierte Inhalt vonDataFrame nutzt Pandas für die Datenverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!