python - Lors de l'utilisation de CrawlSpider dans Scrapy, les URL ne peuvent pas correspondre

Question

Mon code de robot est le suivant. Les règles ne sont pas obtenues. Je ne sais pas quel est le problème ? {Code...} Exécuter un rappel d'erreur : {Code...}

世界只因有你 · Answer

C'est principalement un problème avec allow_domains. Vos règles d'extraction sont correctes. Si vous écrivez le code comme ceci, vous pouvez capturer le lienallow_domains的问题，你的提取规则是没问题的，代码这样写就能抓链接了

# encoding: utf-8
import time
from tutorial.items import CrawlerItem
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class MoyanSpider(CrawlSpider):
    name = 'maoyan'
    allowed_domains = ["maoyan.com"]
    start_urls = ['http://maoyan.com/films']

    rules = (
        Rule(LinkExtractor(allow=(r"films/\d+.*")), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response.url)
        item = CrawlerItem()
        try:

            time.sleep(2)
            item['name'] = response.text.find("p", class_="movie-brief-container").find("h3", class_="name").get_text()
            item['score'] = response.text.find("p", class_="movie-index-content score normal-score").find("span",
                                                                                                       class_="stonefont").get_text()
            url = "http://maoyan.com" + response.text.find("p", class_="channel-detail movie-item-title").find("a")["href"]
            item['id'] = response.url.split("/")[-1]
            temp = response.text.find("p", "movie-brief-container").find("ul").get_text()
            temp = temp.split('
')
            item['tags'] = temp[1]
            item['countries'] = temp[3].strip()
            item['duration'] = temp[4].split('/')[-1]
            item['time'] = temp[6]
            return item
        except Exception as e:
            print(e)

主要就是allow_domain别带上http://. rrreee

L'essentiel est de allow_domain et de ne pas apporter la chaîne http://.

De plus, il y a un problème avec votre module d'analyse. Je ne l'ai pas modifié pour vous. Vous devriez pouvoir le modifier vous-même une fois que vous avez les données.

De plus, je veux me plaindre du camarade de classe précédent, il n'a pas du tout débogué son code, et il a quand même répondu comme ça 🎜.

習慣沉默 · Answer

Plusieurs composants de module sont obsolètes, vous permettant de les remplacer par des modules similaires

阿神 · Answer

Juste un avertissement, aucune erreur. Peut-être que le site Web que vous avez exploré a pris des mesures anti-crawler, ce qui vous empêche de l'obtenir normalement.

python - Lors de l'utilisation de CrawlSpider dans Scrapy, les URL ne peuvent pas correspondre

répondre à tous(3)je répondrai