搜索
首页后端开发php教程PHP中怎样实现文章采集_PHP教程

PHP中怎样实现文章采集_PHP教程

Jul 13, 2016 pm 05:40 PM
php介绍如何实现怎样数据采集文章正则简单表达式采集

  数据采集,大部分是用正则表达式,我简单地介绍下如何实现采集的思路.这里说的是php的实现.一般是本机运行,放到空间上是不明智的,因为不但很耗资源还需要支持远程抓取函数,比如file_get_contents($urls)file($url)等.

  1,文章列表页面的自动切换,以及文章路径的获得.

  2,获得:标题,内容

  3,入库

  4,问题

  1,文章列表页面的自动切换,以及文章路径的获得.

  a,列表页面的自动切换一般依赖动态页面来实现.比如

  http://www.phpfirst.com/foru ... d=1&page=$i

  可以在后面利用$i的自动增加或范围来实现,比如$i++;

  也可以像penzi演示的那个一样,要从第几页到第几页,代码方面控制$i的范围就可以.

  b,文章路径的获得分需要填正则和无需填正则2种:

  1)无需填正则就是获得上面的文章列表页面的所有连接

  但是最好对连接进行过滤,处理---判断重复连接,只留一个,处理相对路径,变成绝对路径.比如../ 和./等.

  以下是我写的乱七八糟的实现函数:

  PHP:

  --------------------------------------------------------------------------------

  

  //$e=clinchgeturl("http://phpfirst.com/forumdisplay.php?fid=1");

  //var_dump($e);

  function clinchgeturl($url)

  {

  //$url="http://127.0.0.1/1.htm";

  //$rootpath="http://fsrootpathfsfsf/yyyyyy/";

  //var_dump($rrr);

  if(eregi((.)*[.](.)*,$url)){

  $roopath=split("/",$url);

  $rootpath="http://".$roopath[2]."/";

  $nnn=count($roopath)-1;for($yu=3;$yu

  // var_dump($rootpath); //http: ,,127.0.0.1,xnml,index.php

  }

  else{$rootpath=$url; //var_dump($rootpath);

  }

  if(isset($url)){

  echo "$url 有下列裢接:
";

  $fcontents = file($url);

  while(list(,$line)=each($fcontents)){

  while(eregi((href[[:space:]]*=[[:space:]]*"?[[:alnum:]:@/._-]+[?]?[^"]*"?),$line,$regs)){

  //$regs[1] = eregi_replace((href[[:space:]]*=[[:space:]]*"?)([[:alnum:]:@/._-]+)("?),"\2",$regs[1]);

  $regs[1] = eregi_replace((href[[:space:]]*=[[:space:]]*["]?)([[:alnum:]:@/._-]+[?]?[^"]*)(.*)[^"/]*(["]?),"\2",$regs[1]);

  if(!eregi(^http://,$regs[1])){

  if(eregi(^..,$regs[1])){

  // $roopath=eregi_replace((http://)?([[:alnum:]:@/._-]+)[[:alnum:]+](.*)[[:alnum:]+],"http://\2",$url);

  $roopath=split("/",$rootpath);

  $rootpath="http://".$roopath[2]."/";

  //echo "这是根本d :"." ";

  $nnn=count($roopath)-1;for($yu=3;$yu

  //var_dump($rootpath);

  if(eregi(^..[/[:alnum:]],$regs[1])){

  //echo "这是../目录/ :"." ";

  //$regs[1]="../xx/xxxxxx.xx";

  // $rr=split("/",$regs[1]);

  //for($oooi=1;$oooi

  $rrr=$regs[1];

  // {$rrr.="/".$rr[$oooi];

  $rrr = eregi_replace("^[.][.][/]",,$rrr); //}

  $regs[1]=$rootpath.$rrr;

  }

  }else{

  if(eregi(^[[:alnum:]],$regs[1])){ $regs[1]=$rootpath.$regs[1]; }

  else{ $regs[1] = eregi_replace("^[/]",,$regs[1]); $regs[1]=$rootpath.$regs[1]; }

  }

  }

  $line = $regs[2];

  if(eregi((.)*[.](htm|shtm|html|asp|aspx|php|jsp|cgi)(.)*,$regs[1])){

  $out[0][]=$regs[1]; }

  }

  }

  }for ($ouou=0;$ouou

  {

  if($out[0][$ouou]==$out[0][$ouou+1]){

  $sameurlsum=1;

  //echo "sameurlsum=1:";

  for($sameurl=1;$sameurl

  if($out[0][$ouou+$sameurl]==$out[0][$ouou+$sameurl+1]){$sameurlsum++;}

  else{break;}

  }

  for($p=$ouou;$p

  { $out[0][$p]=$out[0][$p+$sameurlsum];}

  }

  }

  $i=0;

  while($out[0][++$i]) {

  //echo $root.$out[0][$i]." ";

  $outed[0][$i]=$out[0][$i];

  }

  unset($out);

  $out=$outed; return $out;

  }

  ?>

  上面的东西只能zend,不然有碍市容:(

  得到所有唯一的连接后,放到数组

  2)需要填正则的处理

  如果要准确地获得需要的文章连接,就用这个办法

  按照ketle的思路

  用

  PHP:

  --------------------------------------------------------------------------------

  function cut($file,$from,$end){

  $message=explode($from,$file);

  $message=explode($end,$message[1]);

  return $message[0];

  }

  $from是列表前面的html代码

  $end是列表后面的html代码

  以上可以通过表单提交参数.

  对列表页面不是列表的部分去除,剩下的是需要的连接,

  只要再通过下面正则得到:

  PHP:

  --------------------------------------------------------------------------------

  preg_match("/^(http://)?(.*)/i",

  $url, $matches);

  return $matches[2];

  2,获得:标题,内容

  a首先,利用得到的文章路径,读取目标路径

  可以通过以下函数:

  PHP:

  --------------------------------------------------------------------------------

  function getcontent($url) {

  if($handle = fopen ($url, "rb")){

  $contents = "";

  do {

  $data = fread($handle, 2048);

  if (strlen($data) == 0) {

  break;

  }

  $contents .= $data;

  } while(true);

  fclose ($handle);

  }

  else

  exit("........");

  return $contents;

  }

  或者直接

  PHP:

  --------------------------------------------------------------------------------

  file_get_contents($urls);

  后者比较方便,但是缺点对比上面的就知道.

  b,接下来得到标题:

  一般用这个实现:

  PHP:

  --------------------------------------------------------------------------------

  preg_match("||",$allcontent,$title);

  里面的部分通过提交表单得到.

  也可以通过一系列的cut函数

  比如上面提过的function cut($file,$from,$end),具体的字符串切割可以通过字符处理函数切割实现,后面"取得内容"详细讲.

  c,取得内容

  取得内容方面和取得标题思路一样但情况比较复杂,因为内容附近不会是这么简单.

  1)内容附近的特征字符串有双引号,空格,换行符号等是大障碍

  双引号需要变成 "  可以通过addslashes()处理

  换行符号要去掉 可以通过

  PHP:

  --------------------------------------------------------------------------------

  $a=ereg_replace(" ", , $a);

  $a=ereg_replace("", , $a);

  去掉.

  2)思路2,利用一大堆切割相关的函数对内容提取,需要大量的实践,调试,我正在弄这里,没有获得什么突破~~~~~~~~

  3,入库

  a,切保你的数据库可以插入

  比如我的可以这样直接插入:

  PHP:

  --------------------------------------------------------------------------------

  $sql="INSERT INTO $articles VALUES (, $title, , $article,, , clinch, from, 关键词, 1, $栏目id, $time, 1); ";

  其中

  PHP:

  --------------------------------------------------------------------------------

  (,

  是自动升序的

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/486262.htmlTechArticle数据采集,大部分是用正则表达式,我简单地介绍下如何实现采集的思路.这里说的是php的实现.一般是本机运行,放到空间上是不明智的,...
声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
PHP中的依赖注入是什么?PHP中的依赖注入是什么?May 07, 2025 pm 03:09 PM

依赖性注射inphpisadesignpatternthatenhancesFlexibility,可检验性和ManiaginabilybyByByByByByExternalDependencEctenceScoupling.itallowsforloosecoupling,EasiererTestingThroughMocking,andModularDesign,andModularDesign,butquirscarecarefulscarefullsstructoringDovairing voavoidOverOver-Inje

最佳PHP性能优化技术最佳PHP性能优化技术May 07, 2025 pm 03:05 PM

PHP性能优化可以通过以下步骤实现:1)在脚本顶部使用require_once或include_once减少文件加载次数;2)使用预处理语句和批处理减少数据库查询次数;3)配置OPcache进行opcode缓存;4)启用并配置PHP-FPM优化进程管理;5)使用CDN分发静态资源;6)使用Xdebug或Blackfire进行代码性能分析;7)选择高效的数据结构如数组;8)编写模块化代码以优化执行。

PHP性能优化:使用OpCode缓存PHP性能优化:使用OpCode缓存May 07, 2025 pm 02:49 PM

opcodecachingsimplovesphperforvesphpermance bycachingCompiledCode,reducingServerLoadAndResponSetimes.1)itstorescompiledphpcodeinmemory,bypassingparsingparsingparsingandcompiling.2)useopcachebachebachebachebachebachebachebysettingparametersinphametersinphp.ini,likeememeryconmorysmorysmeryplement.33)

PHP依赖注入:增强代码可维护性PHP依赖注入:增强代码可维护性May 07, 2025 pm 02:37 PM

依赖注入在PHP中通过外部注入方式提供对象依赖,提高代码的可维护性和灵活性。其实现方式包括:1.构造函数注入,2.设值注入,3.接口注入,使用依赖注入可以解耦、提高可测试性和灵活性,但需注意可能增加复杂性和性能开销。

如何在PHP中实施依赖注入如何在PHP中实施依赖注入May 07, 2025 pm 02:33 PM

在PHP中实现依赖注入(DI)可以通过手动注入或使用DI容器来完成。1)手动注入通过构造函数传递依赖,如UserService类注入Logger。2)使用DI容器可以自动管理依赖,如Container类管理Logger和UserService。实现DI可以提高代码的灵活性和可测试性,但需要注意过度注入和服务定位器反模式等陷阱。

unset()和session_destroy()有什么区别?unset()和session_destroy()有什么区别?May 04, 2025 am 12:19 AM

Thedifferencebetweenunset()andsession_destroy()isthatunset()clearsspecificsessionvariableswhilekeepingthesessionactive,whereassession_destroy()terminatestheentiresession.1)Useunset()toremovespecificsessionvariableswithoutaffectingthesession'soveralls

在负载平衡的情况下,什么是粘性会话(会话亲和力)?在负载平衡的情况下,什么是粘性会话(会话亲和力)?May 04, 2025 am 12:16 AM

stickysessensureuserRequestSarerOutedTothesMeServerForsessionDataConsisterency.1)sessionIdentificeAssificationAssigeaSsignAssignSignSuserServerServerSustersusiseCookiesorUrlModifications.2)一致的ententRoutingDirectSsssssubsequeSssubsequeSubsequestrequestSameSameserver.3)loadBellankingDisteributesNebutesneNewuserEreNevuseRe.3)

PHP中有哪些不同的会话保存处理程序?PHP中有哪些不同的会话保存处理程序?May 04, 2025 am 12:14 AM

phpoffersvarioussessionsionsavehandlers:1)文件:默认,简单的ButMayBottLeneckonHigh-trafficsites.2)Memcached:高性能,Idealforsforspeed-Criticalapplications.3)REDIS:redis:similartomemememememcached,withddeddeddedpassistence.4)withddeddedpassistence.4)databases:gelifforcontrati forforcontrati,有用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

将Eclipse与SAP NetWeaver应用服务器集成。

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器