Heim >Backend-Entwicklung >Python-Tutorial >Detaillierte Erklärung von read_excel in Python 2.7 Pandas
Dieser Artikel stellt hauptsächlich die detaillierte Erklärung von read_excel in Python 2.7 vor. Jetzt kann ich ihn mit Ihnen teilen.
Importieren Pandas-Modul:
import pandas as pd
Verwenden Sie import, um das Pandas-Modul zu lesen, und verwenden Sie der Einfachheit halber die Abkürzung pd.
Lesen Sie die zu verarbeitende Excel-Datei:
df = pd.read_excel('log.xls')
Lesen Sie mit read_excel Funktion Geben Sie die Excel-Datei ein, die durch den Pfad ersetzt werden muss, in dem sich die Excel-Datei befindet. Nach dem Lesen wird es zu einem Pandas-DataFrame-Objekt. DataFrame ist eine spaltenorientierte zweidimensionale Tabellenstruktur und enthält Listen und Zeilenbeschriftungen. Operationen an Excel-Dateien werden in Operationen an DataFrame umgewandelt. Wenn ein Excel mehrere Tabellen enthält und Sie nur eine davon lesen möchten, können Sie außerdem Folgendes tun:
df = pd.read_excel('log.xls', sheetname=1)
Ein Parameter sheetname wurde hinzugefügt, der darauf hinweist um welche Zahl es sich handelt, beginnend bei 0. Was ich oben eingestellt habe, ist 1, was die zweite Tabelle ist.
Nach dem Lesen können Sie zunächst die Kopfzeileninformationen und den Datentyp jeder Spalte überprüfen:
df.dtypes
Die Ausgabe ist wie folgt:
Member object Unnamed: 1 float64 Unnamed: 2 float64 Unnamed: 3 float64 Unnamed: 4 float64 Unnamed: 5 float64 家内外活动类型 object Unnamed: 7 object activity object dtype: object
Extrahieren Sie die letzte Datenzeile, die kontinuierlich für jedes Mitglied angezeigt wird:
new_df = df.drop_duplicates(subset='Member', keep='last')
Die obige Anweisung bedeutet, redundante Zeilen basierend auf dem Mitgliedsfeld zu entfernen und die letzte Datenzeile in derselben Zeile beizubehalten. Dadurch werden die Daten der letzten Zeile jedes Mitglieds abgerufen und der gefilterte DataFrame zurückgegeben.
Als nächstes müssen Sie die verarbeiteten Ergebnisse als Excel-Datei speichern:
out = pd.ExcelWriter('output.xls') new_df.to_excel(out) out.save()
output.xls gehört Ihnen Der zu speichernde Dateiname kann beliebig gewählt werden. Anschließend wird der Inhalt des DataFrame in der Datei gespeichert und die Datei schließlich auf der Systemfestplatte gespeichert.
Als nächstes sehen Sie eine neue Datei im aktuellen Verzeichnis, die direkt mit Excel geöffnet und angezeigt werden kann.
Pandas bietet auch viele APIs. Sie können die API-Dokumentation durchsuchen und die entsprechende Funktion finden, um die Aufgabe entsprechend der spezifischen Aufgabe abzuschließen.
Anbei: Ein vollständiges Beispiel
#coding=utf-8 import pandas as pd # 读入excel文件中的第2个表 df = pd.read_excel('log.xls', sheetname=1) # 查看表的数据类型 print df.dtypes # 查看Member列的数据 print df['Member'] ''' # 新建一列,每一行的值是Member列和activity列相同行值的和 for i in df.index: df['activity_2'][i] = df['Member'][i] + df['activity'][i] ''' # 根据Member字段去除掉多余的行,并且保留相同行的最后一行数据 new_df = df.drop_duplicates(subset='Member', keep='last') # 导出结果 out = pd.ExcelWriter('output.xls') new_df.to_excel(out) out.save()
Das obige ist der detaillierte Inhalt vonDetaillierte Erklärung von read_excel in Python 2.7 Pandas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!