python - scrapy 抓不到起始网页内容

Question

初学使用scrapy，按照教程建了很小一个例子，还没有到用pipeline之类的地步，只想看看能不能爬东西下来。代码如下： spider.py： {代码...} items.py: {代码...} 但是发现几个新闻网站都爬取失败了，包括：people...

迷茫 · Answer

Bonjour, voici comment j'ai résolu ce problème. J'ai d'abord ouvert :

scrapy shell http://people.com.cn

Entrez en mode shell, puis saisissez :

response.url.split('/')[-2]

J'ai constaté que le contenu à l'intérieur était vide. À ce moment-là, j'ai déterminé que j'avais fait une erreur lors du fractionnement de l'URL, j'ai donc essayé le code suivant :

response.url.split('/')[-1]

Trouvé le résultat suivant :

La raison derrière l'affiche originale est que le nom de fichier n'existe pas, donc le document ne sera pas généré.
Essayez-le.

PHPz · Answer

Testez-le avec le terminal et essayez-le
http://scrapy-chs.readthedocs...

天蓬老师 · Answer

Je ne sais pas si vous avez lu attentivement la documentation de Scrapy
http://scrapy-chs.readthedocs...

python - scrapy 抓不到起始网页内容

répondre à tous(3)je répondrai