ホームページ >バックエンド開発 >Python チュートリアル >Pandas で CSV ファイルを読み取るときに発生する UnicodeDecodeError を解決するにはどうすればよいですか?

Pandas で CSV ファイルを読み取るときに発生する UnicodeDecodeError を解決するにはどうすればよいですか?

Mary-Kate Olsen
Mary-Kate Olsenオリジナル
2024-12-26 09:16:11426ブラウズ

How Can I Resolve UnicodeDecodeError When Reading CSV Files in Pandas?

UnicodeDecodeError: Pandas で CSV ファイルを読み取る際のエンコーディングの問題を解決する

概要

CSV ファイルでは、特にデフォルトでサポートされていない文字が見つかった場合に、エンコードの問題が発生することがよくあります。エンコーディング。 Python の人気のあるデータ操作ライブラリである Pandas は、CSV ファイルからデータをインポートするための read_csv() メソッドを提供します。ただし、このメソッドでは、Unicode でエンコードされた文字を処理するときに UnicodeDecodeError が発生することがあります。

エラー分析

提供されたエラー メッセージは、read_csv() メソッドが困難であることを示しています。デフォルトの UTF-8 エンコーディングを使用してファイル内のバイトをデコードします。無効な継続バイトは、ファイルが別のエンコードを使用してエンコードされた可能性があることを示唆しています。

問題の解決

このエラーを解決するには、次のときにエンコードを明示的に指定できます。 CSVファイルを読み込んでいます。 Pandas は、この目的のためにエンコーディング パラメーターを提供します。次のアプローチを使用できます。

  • ISO-8859-1 エンコーディング:
    西洋言語で一般的に使用される ISO-8859-1 エンコーディングを使用します。ヨーロッパの性格セット:

    data = pd.read_csv(filepath, encoding="ISO-8859-1")
  • UTF-8 エンコーディング:
    または、世界中の文字セットに適した UTF-8 エンコーディングを使用してみてください:

    data = pd.read_csv(filepath, encoding="utf-8")

のその他のエイリアス「latin」や「cp1252」などの ISO-8859-1 も使用できます。サポートされているエンコーディングの包括的なリストについては、Pandas ドキュメントまたは Python ドキュメントを参照してください。

ファイル エンコーディングの検出

CSV ファイルのエンコーディングが不明な場合は、 enca、Linux の file -i、macOS の file -I などのツールを使用して、正しいものを判断できます。エンコード。

追加リソース

  • [Pandas read_csv() ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference) /api/pandas.read_csv.html)
  • [Python csv モジュール]例](https://docs.python.org/3/library/csv.html#examples)
  • [Unicode と文字セットについてすべての開発者が知っておくべきこと](https://unicode.org/ reports/tr15/)

以上がPandas で CSV ファイルを読み取るときに発生する UnicodeDecodeError を解決するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。