首頁 >後端開發 >Python教學 >在 Pandas 中讀取 CSV 檔案時如何解決 UnicodeDecodeError?

在 Pandas 中讀取 CSV 檔案時如何解決 UnicodeDecodeError?

Mary-Kate Olsen
Mary-Kate Olsen原創
2024-12-26 09:16:11429瀏覽

How Can I Resolve UnicodeDecodeError When Reading CSV Files in Pandas?

UnicodeDecodeError:解決在Pandas 中讀取CSV 文件時的編碼問題

簡介

使用CSV 檔案通常會帶來編碼挑戰,特別是在遇到預設不支援的字元時編碼。 Pandas 是 Python 中流行的資料操作庫,提供 read_csv() 方法來從 CSV 檔案匯入資料。但是,此方法在處理 Unicode 編碼字元時偶爾會遇到 UnicodeDecodeError。

錯誤分析

提供的錯誤訊息表明 read_csv() 方法正在掙扎使用預設的 UTF-8 編碼對檔案中的位元組進行解碼。無效的連續位元組表明該檔案可能已使用不同的編碼進行編碼。

解決問題

要解決此錯誤,您可以在下列情況下明確指定編碼:讀取 CSV 檔案。 Pandas 為此提供了編碼參數。可採用以下方法:

  • ISO-8859-1 編碼:
    使用 ISO-8859-1編碼,此編碼通常用於西方歐洲性格集:

    data = pd.read_csv(filepath, encoding="ISO-8859-1")
  • UTF-8 編碼:
    或者,嘗試使用UTF-8 編碼,它適用於全球字符集:

    data = pd.read_csv(filepath, encoding="utf-8")

其他別名也可以使用 ISO-8859-1,例如「latin」或「cp1252」。請參閱 Pandas 文件或 Python 文件以取得支援的編碼的完整清單。

偵測檔案編碼

如果您不確定CSV 檔案的編碼,您可以使用enca、Linux 上的file -i 或macOS 上的file -I 等工具來確定正確的編碼。

其他資源

  • [Pandas read_csv() 文件](https://pandas.pydata.org/pandas-docs/stable/reference /api /pandas.read_csv.html)
  • [Python csv模組範例](https://docs.python.org/3/library/csv.html#examples)
  • [每個開發人員應該了解的有關Unicode 和字元集的知識](https:/ /unicode.org/報告/tr15/)

以上是在 Pandas 中讀取 CSV 檔案時如何解決 UnicodeDecodeError?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn