ホームページ >バックエンド開発 >Python チュートリアル >CSV ファイルの読み取り時に「pandas.parser.CParserError: データのトークン化エラー」を解決する方法?

CSV ファイルの読み取り時に「pandas.parser.CParserError: データのトークン化エラー」を解決する方法?

Barbara Streisand
Barbara Streisandオリジナル
2024-12-23 15:49:14815ブラウズ

How to Solve

CSV ファイル読み取り時の「pandas.parser.CParserError: Error tokenizing data」の処理

「pandas.parser.CParserError: Error tokenizing data」 data」エラーは、パンダがデータ内のフィールド数の不一致を検出したときに発生します。 CSV行。このエラーを解決し、データをスムーズに操作するには、次の点を考慮してください。

1.コーディング エラーを確認する

CSV ファイルにコーディング エラー (フィールド区切り文字の欠落や不正な形式の値など) がないか確認します。さらに、ファイルのファイル拡張子が正しいかどうかを確認します (例: .csv)。

2. CSV 区切り文字の調整

デフォルトでは、pandas は CSV ファイルの区切り文字としてカンマを使用します。ただし、CSV ファイルで別の区切り文字 (セミコロンなど) が使用されている場合は、read_csv().

3 の delimiter パラメーターを使用して指定します。不正な行を無視する

少数の問題のある行が見つかった場合は、CSV ファイルの読み取り中にそれらの行をスキップするようにパンダに指示できます。これを行うには、read_csv().

4 の on_bad_lines='skip' パラメーターを使用します。 CSV モジュールの使用

パンダの代わりに、Python csv モジュールを使用して CSV ファイルを読み取り、解析できます。このモジュールは解析プロセスをより詳細に制御できるため、エラーや不一致をより柔軟に処理できるようになります。

例:

csv モジュールを使用するには、次のコード:

with open(path, 'r') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    data = list(csv_reader)

追加ヒント:

  • Pandas バージョン 1.3.0 より前の場合は、error_bad_lines=False を使用してエラーを抑制します。
  • かなりの数の不正な行が発生すると予想される場合は、 on_bad_lines='warn' またはカスタム呼び出し可能関数を使用してそれらを処理します
  • パンダにインポートする前に CSV データを検証して整合性を確保することを検討してください。

以上がCSV ファイルの読み取り時に「pandas.parser.CParserError: データのトークン化エラー」を解決する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。