python - Menggunakan CrawlSpider dalam scrapy, url tidak boleh dipadankan

Question

Kod perangkak saya adalah seperti berikut. Peraturan tidak diperolehi. Saya tidak tahu apa masalahnya? {Code...} Jalankan peringatan ralat: {Code...}

世界只因有你 · Answer

Terutamanya masalah dengan allow_domains peraturan pengekstrakan anda baik.

# encoding: utf-8
import time
from tutorial.items import CrawlerItem
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor


class MoyanSpider(CrawlSpider):
    name = 'maoyan'
    allowed_domains = ["maoyan.com"]
    start_urls = ['http://maoyan.com/films']

    rules = (
        Rule(LinkExtractor(allow=(r"films/\d+.*")), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
        print(response.url)
        item = CrawlerItem()
        try:

            time.sleep(2)
            item['name'] = response.text.find("p", class_="movie-brief-container").find("h3", class_="name").get_text()
            item['score'] = response.text.find("p", class_="movie-index-content score normal-score").find("span",
                                                                                                       class_="stonefont").get_text()
            url = "http://maoyan.com" + response.text.find("p", class_="channel-detail movie-item-title").find("a")["href"]
            item['id'] = response.url.split("/")[-1]
            temp = response.text.find("p", "movie-brief-container").find("ul").get_text()
            temp = temp.split('
')
            item['tags'] = temp[1]
            item['countries'] = temp[3].strip()
            item['duration'] = temp[4].split('/')[-1]
            item['time'] = temp[6]
            return item
        except Exception as e:
            print(e)

allow_domains的问题，你的提取规则是没问题的，代码这样写就能抓链接了

rrreee

主要就是allow_domain别带上http://Perkara utama ialah membenarkan_domain dan jangan bawa rentetan http://.

Selain itu, terdapat sesuatu yang salah dengan modul penghuraian anda. Saya belum mengubah suainya untuk anda.

Selain itu, saya ingin mengadu tentang rakan sekelas terdahulu, dia tidak menyahpepijat kodnya sama sekali, dan dia menjawab dengan tegas, yang jelas mengelirukan

習慣沉默 · Answer

Beberapa komponen modul telah ditamatkan, membolehkan anda menggunakan modul yang serupa sebaliknya

阿神 · Answer

Sekadar amaran, tiada ralat. Mungkin tapak web yang anda rangkak telah mengambil langkah anti-perakak, menyebabkan anda tidak dapat memperolehnya seperti biasa.

python - Menggunakan CrawlSpider dalam scrapy, url tidak boleh dipadankan

membalas semua(3)saya akan balas