我爬虫的目标网址是http://jobs.monster.com/search/software_5
想要保存这个网站上每一条工作的标题、链接、公司和发布时间
我自己检查的时候用sites = hxs.select('//p')获取所有的p
结果发现本来只能得到一条工作的信息
例如:每个工作里都该有个p class=jobTitle,但是在数据里只能找到一个这样的p
这个网站刚刚改版,之前都还能顺利获取数据,请有经验的大神指点我一个解决方案。
PHPz2017-04-17 16:40:11
解決済み
データはすべて js 内にあり、js 内のデータは、response.body と正規表現を通じて直接取得されます。この方法はあまり良くありませんが、同じ問題を抱えている学生は Python-webkit を学ぶことができます。