python - 爬取人民日报的评论员文章，碰到问题了，求解答。

Question

新手，在学习python爬虫，环境是python3.4，想爬取人民日报评论员文章，现在只怕去了一个网页，代码如下， {代码...} 网页上出错的源代码如下：&lt;span style="text-indent: 2em; display: block;" id="paper_nu...

天蓬老师 · Answer

原来代码中的链接已经失效，我以 http://cpc.people.com.cn/n1/2016/0628/c404684-28502214.html 中文章为例子。

可以正常工作的代码：

#! /usr/bin/env python
# -*- coding: utf-8 -*-
# @Last Modified time: 2016-06-30 12:32:52

import requests
from bs4 import BeautifulSoup


myUrl = "http://cpc.people.com.cn/n1/2016/0628/c404684-28502214.html"
response = requests.get(myUrl)

response.encoding = response.apparent_encoding

soup = BeautifulSoup(response.text)
print soup.title.string

for a in soup.find_all(style="text-indent: 2em;"):
    if a.string:
        print a.string

运行结果：

这里遇到的编码问题很常见，简单来说就是 requests 猜错了网页的编码方式。

requests 取得response 后，会根据 headers 中给出的编码来解码拿到的数据，如果响应 header 没有指定编码，则默认指定为 ISO-8859-1(encoding 属性)。好在 requests 还可以根据内容猜测编码方案，推测的结果保存在 apparent_encoding 属性中，针对人民日报评论，这里是 GB2312。所以，只需要制定 encoding = apparent_encoding，然后获取text 即可得到正确的解码结果。（注意apparent_encoding并不能保证 100%正确）

requests 文档部分可以参考Response Content
关于编码的理解，可以参考：人机交互之字符编码和五分钟战胜 Python 字符编码。
关于requests 编码解析的详细内容，参考Python + Requests 编码问题

编码确实是一个坑，不过搞清楚了，就很容易避过去。

大家讲道理 · Answer

找到一个公共的元素，然后用正则来筛选数据吧

伊谢尔伦 · Answer

报错原因NoneType类没有encode属性，说明你用soup.find_all()没有匹配到括号内的参数，你试试先匹配一下tag，再匹配style，可能会找到原因，实在不行上正则

python - 爬取人民日报的评论员文章，碰到问题了，求解答。

全部回复(3)我来回复