>  기사  >  백엔드 개발  >  중국어 왜곡 문자를 수집하는 Python 방법

중국어 왜곡 문자를 수집하는 Python 방법

高洛峰
高洛峰원래의
2017-02-24 15:31:421415검색

요 며칠 특정 웹페이지를 수집해 보니 대부분의 웹페이지는 정상이었는데, 몇몇 웹페이지에서 글자가 깨져서 발생하는 현상이 있었습니다. .. 녹화됩니다

1. 일반적인 상황에서는

import chardet

thischarset = chardet.detect(strs)["encoding"]

를 사용하여 인코딩 방법을 얻을 수 있습니다. 파일 또는 페이지

또는 페이지의 charset = xxxx를 직접 가져와

2. 콘텐츠에 특수 문자가 있는 경우 지정된 인코딩으로 인해 문자가 깨질 수도 있습니다. 콘텐츠의 잘못된 문자로 인해 발생하는 경우 인코딩을 사용하여 잘못된 문자를 무시할 수 있습니다. decode의 두 번째 매개변수는 잘못된 문자를 발견할 때 사용할 방법을 나타냅니다.

이 매개변수는 기본적으로 예외를 발생시킵니다. >

위 내용은 편집자가 가져온 Python의 중국어 왜곡 문자 수집 문제에 대한 완벽한 솔루션입니다. PHP 중국어 웹사이트를 지원해 주세요.

관련 기사를 더 보려면 Python의 한자 깨짐 문자 수집 방법, PHP 중국어 사이트를 주목해주세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.