Python爬虫的乱码问题？

Question

使用python实现模拟登陆并爬取返回页面的时候出现了乱码，目标网页的编码使用utf-8 相关代码： {代码...} 控制台输出信息： 第一次遇见这种乱码比较懵逼

PHPz · Answer

urllib2 ne gère pas les problèmes de compression, il faut utiliser gzip pour décompresser, comme ça

from StringIO import StringIO
import gzip

if response.info().get('Content-Encoding') == 'gzip':
    buf = StringIO(text)
    f = gzip.GzipFile(fileobj=buf)
    data = f.read()

En résumé, urllib2 est de niveau relativement bas, et il est recommandé d'utiliser des requêtes

Python爬虫的乱码问题？

répondre à tous(1)je répondrai