search

Home  >  Q&A  >  body text

javascript - 用scrapy爬虫结合什么第三方解析js动态加载网页比较好?

要爬的网站是写的很规范的数据库网站。
在从目录条目加载到到详情页面过程,查看了一下javascript后发现是通过数据库查询完成的。
整个网站条目有上千万,所以需要考虑到效率问题。
我知道已知的方案有selenium,phantomjs。
求指点。

迷茫迷茫2931 days ago357

reply all(3)I'll reply

  • PHP中文网

    PHP中文网2017-04-10 14:58:01

    方案1:

    打开调试工具研究ajax请求,找到规律后自己仿照着发送

    方案2:

    关键字 headless

    请参考stackoverflow上的一个提问
    Headless Browser and scraping - solutions

    你看到PhantomJS的出现频率,应该知道怎么选了吧。

    当然,CasperJS的API比较舒服一点

    reply
    0
  • 黄舟

    黄舟2017-04-10 14:58:01

    研究一下ajax的规则,然后带上cookie抓

    reply
    0
  • 黄舟

    黄舟2017-04-10 14:58:01

    https://github.com/scrapinghub/scrapy-splash

    reply
    0
  • Cancelreply