python - scrapy 抓不到起始网页内容

Question

初学使用scrapy，按照教程建了很小一个例子，还没有到用pipeline之类的地步，只想看看能不能爬东西下来。代码如下： spider.py： {代码...} items.py: {代码...} 但是发现几个新闻网站都爬取失败了，包括：people...

迷茫 · Answer

楼主，您好，我是这样解决这个问题的，第一我打开：

scrapy shell http://people.com.cn

进入到了shell模式，然后输入：

response.url.split('/')[-2]

发现里面的内容为空，这时候我判定是分割网址的时候弄错了，所以，我尝试了下面这个代码：

response.url.split('/')[-1]

发现有输出如下：

所以楼主的原因是filename不存在，所以不会生成文档了。
试试吧。

PHPz · Answer

你用终端测试一下试一试
http://scrapy-chs.readthedocs...

天蓬老师 · Answer

不知道你有没有认真看scrapy的文档
http://scrapy-chs.readthedocs...