ここ数日、あるウェブページを収集したところ、ほとんどのウェブページは正常でしたが、少数のウェブページで文字化けが発生していました。数日間デバッグした結果、一部の不正な文字が原因であることが判明しました。これは記録されています
1. 通常の状況では...
import chardet thischarset = chardet.detect(strs)["encoding"]
を使用してファイルまたはページのエンコード方法を取得するか、ページのcharset = xxxxを直接取得できます。
を取得する 2. コンテンツ内で特殊文字が発生した場合に指定します。これは、コンテンツ内の不正な文字によっても発生します。これは、不正な文字を無視するようにエンコードすることで処理できます。 decode の 2 番目のパラメータは、不正な文字が検出されたときに採用されるメソッドを示します。
このパラメータはデフォルトで例外をスローします。