Python爬虫的乱码问题？

Question

使用python实现模拟登陆并爬取返回页面的时候出现了乱码，目标网页的编码使用utf-8 相关代码： {代码...} 控制台输出信息： 第一次遇见这种乱码比较懵逼

PHPz · Answer

urllib2没有处理压缩的问题，你要使用gzip解压，比如这样

from StringIO import StringIO
import gzip

if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO(text)
    f = gzip.GzipFile(fileobj=buf)
    data = f.read()

总结urllib2比较底层，建议使用requests

Python爬虫的乱码问题？

Antworte allen(1)Ich werde antworten