Heim > Artikel > Backend-Entwicklung > Wie optimiere ich Pandas „read_csv“ mit den Optionen „dtype“ und „low_memory“?
Bei der Verwendung von pd.read_csv('somefile.csv') kann es vorkommen, dass ein DtypeWarning gibt an, dass Spalten gemischte Typen haben. Durch Angabe der dtype-Option kann dieser Fehler verhindert und die Leistung verbessert werden.
Die veraltete Option „low_memory“ hat eigentlich keinen Einfluss auf das Verhalten. Es hängt jedoch mit der dtype-Option zusammen, da das Erraten der dtypes für jede Spalte speicherintensiv sein kann.
Wenn die letzte Zeile in Wenn Ihre Datei unerwartete Daten enthält, kann die Angabe von dtypes dazu führen, dass der Ladevorgang fehlschlägt. Wenn beispielsweise eine als Ganzzahl angegebene Spalte einen Zeichenfolgenwert wie „foobar“ enthält, wird der Ladevorgang unterbrochen.
Um solche Fehler explizit zu vermeiden Geben Sie beim Lesen der CSV-Datei dtypes an. Durch die Verwendung der dtype-Option wird jeder Spalte der richtige Datentyp zugewiesen, was eine effiziente Analyse ermöglicht und den Speicherverbrauch reduziert.
Pandas unterstützt verschiedene dtypes, darunter :
Pandas-Erweiterungen:
Das obige ist der detaillierte Inhalt vonWie optimiere ich Pandas „read_csv“ mit den Optionen „dtype“ und „low_memory“?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!