我需要采集某网站的内容页。先采集到链接,再通过链接获取内容页。但是,链接太多,一获取就超时,不得不按分类小量的获取。而分类有近300多个。手动去设置分类,也很慢。如何才能自动的去获取我想要的数据,而不会超时?请指个思路,谢谢!
不好意思,是我没说清楚。超时是504 Gateway timeout。
设置set_time_limit没用
这个问题已被关闭,原因:
我需要采集某网站的内容页。先采集到链接,再通过链接获取内容页。但是,链接太多,一获取就超时,不得不按分类小量的获取。而分类有近300多个。手动去设置分类,也很慢。如何才能自动的去获取我想要的数据,而不会超时?请指个思路,谢谢!
不好意思,是我没说清楚。超时是504 Gateway timeout。
设置set_time_limit没用
为何用php,可以尝试scrapy,很好用
504是网关超时啊,你的Web服务器崩了吧,你可以直接命令行运行php脚本应该就没有问题吧。还有你的服务器用的是Apache还是Nginx?
唔,超时?set_time_limit(0);
可以让脚本一直运行~
可以修改php.ini的max_execution_time数值,或者按楼上说的,用set_time_limit 函数
采集在命令行执行,不会超时 :)