Pythonで中国語の文字化けを収集する方法

ここ数日、あるウェブページを収集したところ、ほとんどのウェブページは正常でしたが、少数のウェブページで文字化けが発生していました。数日間デバッグした結果、一部の不正な文字が原因であることが判明しました。これは記録されています

1. 通常の状況では...

import chardet

thischarset = chardet.detect(strs)["encoding"]

を使用してファイルまたはページのエンコード方法を取得するか、ページのcharset = xxxxを直接取得できます。

を取得する 2. コンテンツ内で特殊文字が発生した場合に指定します。これは、コンテンツ内の不正な文字によっても発生します。これは、不正な文字を無視するようにエンコードすることで処理できます。 decode の 2 番目のパラメータは、不正な文字が検出されたときに採用されるメソッドを示します。

このパラメータはデフォルトで例外をスローします。

上記は、エディタによってもたらされた Python の中国語文字化けコレクションの問題に対する完璧な解決策であることを願っています。 PHP 中国語 Web サイトをサポートしてください

詳細 Python を使用して中国語の文字化けを収集する方法に関する関連記事は、PHP 中国語 Web サイトに注目してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

続きを見る