찾다

 >  Q&A  >  본문

python - Scrapy 爬虫的时候只能抓取到页面的一条数据,请教不知道是不是网站做了反爬虫的手段?

我爬虫的目标网址是http://jobs.monster.com/search/software_5
想要保存这个网站上每一条工作的标题、链接、公司和发布时间

我自己检查的时候用sites = hxs.select('//p')获取所有的p
结果发现本来只能得到一条工作的信息

例如:每个工作里都该有个p class=jobTitle,但是在数据里只能找到一个这样的p

这个网站刚刚改版,之前都还能顺利获取数据,请有经验的大神指点我一个解决方案。

怪我咯怪我咯2804일 전865

모든 응답(1)나는 대답할 것이다

  • PHPz

    PHPz2017-04-17 16:40:11

    해결됨

    데이터는 모두 js에 있고, js에 있는 데이터는 response.body와 정규 표현식을 통해 직접 얻습니다. 방법은 그다지 좋지 않습니다. 같은 문제를 겪고 있는 학생들은 Python-webkit을 공부할 수 있습니다.

    회신하다
    0
  • 취소회신하다