search

Home  >  Q&A  >  body text

php自动采集如何实现?

我现在可以实现php的采集功能,现在我把这个程序写入网站,上传到服务器,有没有什么办法能够让它在每天早上6点和下午6点自动执行采集一次.
哪位大哥能给点实用的源码,谢谢...

PHP中文网PHP中文网2930 days ago1577

reply all(1)I'll reply

  • PHP中文网

    PHP中文网2016-12-19 09:58:36

    1, windows服务器的话直接计划任务里面执行下bat就可以了,自己写个脚本;
    2, linux下也可以这样;
    3, 还有一个办法是把你的.php放在某个网站的后台定期任务处,这样不用调用系统的定期任务,当有人访问这个网站时(而且6点之后的第一个人),自动触发这个事件;
    4, 不同意循环,这样占用的资源可能一直没有释放;;;


    PHP自动采集能一定程度的实现,部分网站的页面结构存在一定的共通点,比如文章内容页的标题,不少网站是标记在<h1>里的,实在不行,就采集<title>,绝对能采到,然后、过滤掉title里面的网站名称。
      采集文章内容就相对麻烦,但是通过层层分析,层层剥离,一定要进行大量的网站分析,写出多套通用性比较强的采集规则,程序在采集的时候也要进行大量分析。
      有几点是可以肯定的,那就是绝对不能要求采集效果达到为某个网站单独写采集规则来的效果好,也绝对不是能匹配任意网站,顶多能匹配部分网站。

    reply
    0
  • Cancelreply