Maison >développement back-end >tutoriel php >网页抓取信息(php正则表达式、php操作excel)_PHP教程

网页抓取信息(php正则表达式、php操作excel)_PHP教程

WBOY
WBOYoriginal
2016-07-13 09:51:06941parcourir

网页抓取信息(php正则表达式、php操作excel)

1.问题描述

实现对固定网页上自己需要的信息抓取,以表格形式存储。我是拿wustoj上的一个排行榜来练习的,地址:wustoj

 

2.思路

网页自己就简单学习了一下php,刚好用它来做点事情吧,我的想法是这样的:

(1)查看网页源代码并保存在文件中。

(2)根据需要的信息写出正则表达式,读文件,根据正则表达式来提取需要的信息。写正则表达式的时候最好分组,这样提取起来就方便了很多。

(3)对excel操作,将提取的信息以excel的形式输出。

比较好的开源php处理excel类链接:点击打开链接

 

3.体会

^是指要是原字符串的开头,$是指要是原字符串的结尾。
空字符不一定是空格。
用()来分组是好方法,如preg_macth_all(/$pattern/,$subject,matches)。
matches为二维数组,如果没有_all,则只会匹配第一部分,是一维数组。
$matches[0]保存完整模式的所有匹配。$matches[1]保存第一子组所有匹配,即所有匹配的第一部分。
中文匹配串我用的这个$patt_ch=chr(0x80)."-".chr(0xff)。

 

4.代码

 

<!--?php
header("Content-Type: text/html; charset=utf-8");

$url = "http://acm.wust.edu.cn/contestrank.php?cid=1014";
$result=file_get_contents($url);
$file=fopen("content.php","w");
fwrite($file,$result);
$file=fopen("content.php","r");

$patt_ch=chr(0x80)."-".chr(0xff);
// <td-->1team30_姓名
$namepatt="()(\*{0,1}team[0-9]+)(_)([$patt_ch]+)(<\/a>)";  // part2 part4
//$namepatt="(team[0-9]+)(_)([$patt_ch]+)";   也可以用这个直接匹配"team_姓名"
//7
$problempatt="()([0-9]+)(<\/a>)";


//Include class
require_once(&#39;Classes/PHPExcel.php&#39;);
require_once(&#39;Classes/PHPExcel/Writer/Excel2007.php&#39;);
$objPHPExcel = new PHPExcel();

//Set properties 设置文件属性
$objPHPExcel->getProperties()->setCreator("Maarten Balliauw");
$objPHPExcel->getProperties()->setLastModifiedBy("Maarten Balliauw");
$objPHPExcel->getProperties()->setTitle("Office 2007 XLSX Test Document");
$objPHPExcel->getProperties()->setSubject("Office 2007 XLSX Test Document");
$objPHPExcel->getProperties()->setDescription("Test document for Office 2007 XLSX, generated using PHP classes.");
$objPHPExcel->getProperties()->setKeywords("office 2007 openxml php");
$objPHPExcel->getProperties()->setCategory("Test result file");


$row=1;
$objPHPExcel->getActiveSheet()->setCellValue(&#39;A&#39;.$row, &#39;rank&#39;);
$objPHPExcel->getActiveSheet()->setCellValue(&#39;B&#39;.$row, &#39;team&#39;);
$objPHPExcel->getActiveSheet()->setCellValue(&#39;C&#39;.$row, &#39;solved&#39;);
while(!feof($file))
{
	//echo $row." ";
	$line=fgets($file);
	if(preg_match("/$rankpatt/",$line,$match))
	{
		$row++;
		//print_r	($match);
		//echo	$match[2]." ";
		//echo	"
";
		$objPHPExcel->getActiveSheet()->setCellValue(&#39;A&#39;.$row, $match[2]);
		$objPHPExcel->getActiveSheet()->getStyle(&#39;A&#39;.$row)->getAlignment()->setHorizontal(PHPExcel_Style_Alignment::HORIZONTAL_LEFT);
	}
	if(preg_match("/$namepatt/",$line,$match))
	{
		//print_r	($match);
		//echo	$match[2]." ".$match[4]." ";
		//echo	"
"; 
		$objPHPExcel->getActiveSheet()->setCellValue(&#39;B&#39;.$row, $match[2].$match[4]);
	}
	if(preg_match("/$problempatt/",$line,$match))
	{
		//print_r	($match);
		//echo	$match[2]." ";
		//echo	"
";
		$objPHPExcel->getActiveSheet()->setCellValue(&#39;C&#39; . $row, $match[2]);
		$objPHPExcel->getActiveSheet()->getStyle(&#39;C&#39;.$row)->getAlignment()->setHorizontal(PHPExcel_Style_Alignment::HORIZONTAL_LEFT);
	}
	$objWriter = new PHPExcel_Writer_Excel2007($objPHPExcel);
	$objWriter->save(str_replace(&#39;.php&#39;, &#39;.xlsx&#39;, __FILE__));
}
echo	"well done:)";
?></a[[:space:]]></a[[:space:]]>


5.运行结果

\

 

 

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/1015087.htmlTechArticle网页抓取信息(php正则表达式、php操作excel) 1.问题描述 实现对固定网页上自己需要的信息抓取,以表格形式存储。我是拿wustoj上的一个排...
Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn