UnicodeDecodeError:解決在Pandas 中讀取CSV 文件時的編碼問題
簡介
使用CSV 檔案通常會帶來編碼挑戰,特別是在遇到預設不支援的字元時編碼。 Pandas 是 Python 中流行的資料操作庫,提供 read_csv() 方法來從 CSV 檔案匯入資料。但是,此方法在處理 Unicode 編碼字元時偶爾會遇到 UnicodeDecodeError。
錯誤分析
提供的錯誤訊息表明 read_csv() 方法正在掙扎使用預設的 UTF-8 編碼對檔案中的位元組進行解碼。無效的連續位元組表明該檔案可能已使用不同的編碼進行編碼。
解決問題
要解決此錯誤,您可以在下列情況下明確指定編碼:讀取 CSV 檔案。 Pandas 為此提供了編碼參數。可採用以下方法:
ISO-8859-1 編碼:
使用 ISO-8859-1編碼,此編碼通常用於西方歐洲性格集:
data = pd.read_csv(filepath, encoding="ISO-8859-1")
UTF-8 編碼:
或者,嘗試使用UTF-8 編碼,它適用於全球字符集:
data = pd.read_csv(filepath, encoding="utf-8")
其他別名也可以使用 ISO-8859-1,例如「latin」或「cp1252」。請參閱 Pandas 文件或 Python 文件以取得支援的編碼的完整清單。
偵測檔案編碼
如果您不確定CSV 檔案的編碼,您可以使用enca、Linux 上的file -i 或macOS 上的file -I 等工具來確定正確的編碼。
其他資源
以上是在 Pandas 中讀取 CSV 檔案時如何解決 UnicodeDecodeError?的詳細內容。更多資訊請關注PHP中文網其他相關文章!