요 며칠 특정 웹페이지를 수집해 보니 대부분의 웹페이지는 정상이었는데, 몇몇 웹페이지에서 글자가 깨져서 발생하는 현상이 있었습니다. .. 녹화됩니다
1. 일반적인 상황에서는
import chardet thischarset = chardet.detect(strs)["encoding"]
를 사용하여 인코딩 방법을 얻을 수 있습니다. 파일 또는 페이지
또는 페이지의 charset = xxxx를 직접 가져와
2. 콘텐츠에 특수 문자가 있는 경우 지정된 인코딩으로 인해 문자가 깨질 수도 있습니다. 콘텐츠의 잘못된 문자로 인해 발생하는 경우 인코딩을 사용하여 잘못된 문자를 무시할 수 있습니다. decode의 두 번째 매개변수는 잘못된 문자를 발견할 때 사용할 방법을 나타냅니다.
위 내용은 편집자가 가져온 Python의 중국어 왜곡 문자 수집 문제에 대한 완벽한 솔루션입니다. PHP 중국어 웹사이트를 지원해 주세요.
관련 기사를 더 보려면 Python의 한자 깨짐 문자 수집 방법, PHP 중국어 사이트를 주목해주세요!