>백엔드 개발 >파이썬 튜토리얼 >Python은 중국어 인코딩 크롤링 및 인코딩 판단을 처리합니다.

Python은 중국어 인코딩 크롤링 및 인코딩 판단을 처리합니다.

高洛峰
高洛峰원래의
2016-10-19 11:45:201253검색

자체 크롤러를 개발하는 과정에서 일부 웹 페이지는 utf-8, 일부는 gb2312, 일부는 gbk입니다. 처리하지 않으면 수집된 데이터가 왜곡됩니다. 해결 방법은 html을 통합 처리하는 것입니다. utf-8 인코딩

버전 python2.7

#coding:utf-8
import chardet
#抓取网页html
line = "http://www.pythontab.com"
html_1 = urllib2.urlopen(line,timeout=120).read()
encoding_dict = chardet.detect(html_1)
print encoding
web_encoding = encoding_dict['encoding']
#处理,整个html就不会是乱码。
if web_encoding == 'utf-8' or web_encoding == 'UTF-8':
html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.