Maison >développement back-end >tutoriel php >php如何抓取网页数据?
php抓取网页数据
header("Content-type: text/html; charset=utf-8"); //$url = "https://www.cnblogs.com/chenliyang/p/6554647.html"; //$html = file_get_contents($url); ////如果出现中文乱码使用下面代码 ////$getcontent = iconv("gb2312", "utf-8",$html); //echo "<textarea style='width:800px;height:600px;'>".$html."</textarea>"; //获取整个内容
第一种 file_get_contents 抓取
file_get_contents() 把整个文件读入一个字符串中。
该函数是用于把文件的内容读入到一个字符串中的首选方法。如果服务器操作系统支持,还会使用内存映射技术来增强性能。
$url = 'http://www.baidu.com'; //这儿填页面地址 $info=file_get_contents($url); //preg_match('|<title>(.*?)<\/title>|i',$info,$m); $m1=preg_match('|<title>(.*?)<\/title>|',$info,$m); //var_dump($m1); echo $m[1]; //获取标题 echo '<br/>';
第二种 curl抓取,
$url = "http://www.baidu.com"; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); $html = curl_exec($ch); curl_close($ch); $m1=preg_match('|<title>(.*?)<\/title>|',$html,$ms); //echo "<textarea style='width:800px;height:600px;'>".$html."</textarea>"; //获取整个内容 //curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); echo $ms[1]; //获取标题 echo '<br/>';
更多相关知识,请访问 PHP中文网!!