使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722可行,但是如果抓取相同类型的一系列网站就会出错,将他们放在数组
$linkList中,分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5325等等。
function getJobsHubuNotice() { $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81'); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //内容处理 $result = strip_tags($result,'<a>'); $result = stristr($result, 'nbsp当前位置:'); $result = str_replace('nbsp当前位置:', '', $result); $result = stristr($result, '当前1/2页',true); $result = stristr($result, '通知公告'); $result = str_replace('通知公告</a>', '', $result); preg_match_all('/(?<=href=\").*?(?=\")/', $result, $arrayTemp); $linkList = $arrayTemp[0]; preg_match_all('/(?<=title=\").*?(?=\")/', $result, $arrayTemp); $titleList = $arrayTemp[0]; preg_match_all('/(?<=\[)\d*\-\d*(?=\])/', $result, $arrayTemp); $dateList_temp = $arrayTemp[0]; $dateList = array(); $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList); foreach ($dateList_temp as $key => $value) { $dateList[$key] = date('Y').'-'.$value; } $JobsHubu = array(); //分别获得网页上的每条通知的标题,链接,时间 $JobsHubu[0] = $dateList; $JobsHubu[1] = $titleList; $JobsHubu[2] = $linkList; return $JobsHubu; } // function makePage($link) { ....... //省略部分代码 else if(starts($link,'jobs.hubu')) { echo "进入makePage函数"; echo "处理网页".$link.'<br/>'; $curl = curl_init(); curl_setopt($curl, CURLOPT_URL , $link); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //echo $result; //echo "result结束"; $result = strip_tags($result); $result = stristr($result, ' > 通知公告'); $result = str_replace(' > 通知公告', '', $result); $result = stristr($result, '$(document).ready',true); $result = trim($result); $result = str_replace("\r\n", '<br/>', $result); $result = preg_replace('/(\<br\/\>){1,}/', '<br/>', $result); echo $result; echo '<br/><br/>'; echo "退出makePage函数"; return $result; } }
先用getJobsHubuNotice()函数获取新闻的链接,标题,日期,然后用makePage()函数获取内容
这是在makePage内部打印链接的结果,链接用浏览器打开没有问题.
回复内容:
使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722可行,但是如果抓取相同类型的一系列网站就会出错,将他们放在数组
$linkList中,分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5325等等。
function getJobsHubuNotice() { $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81'); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //内容处理 $result = strip_tags($result,'<a>'); $result = stristr($result, 'nbsp当前位置:'); $result = str_replace('nbsp当前位置:', '', $result); $result = stristr($result, '当前1/2页',true); $result = stristr($result, '通知公告'); $result = str_replace('通知公告</a>', '', $result); preg_match_all('/(?<=href=\").*?(?=\")/', $result, $arrayTemp); $linkList = $arrayTemp[0]; preg_match_all('/(?<=title=\").*?(?=\")/', $result, $arrayTemp); $titleList = $arrayTemp[0]; preg_match_all('/(?<=\[)\d*\-\d*(?=\])/', $result, $arrayTemp); $dateList_temp = $arrayTemp[0]; $dateList = array(); $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList); foreach ($dateList_temp as $key => $value) { $dateList[$key] = date('Y').'-'.$value; } $JobsHubu = array(); //分别获得网页上的每条通知的标题,链接,时间 $JobsHubu[0] = $dateList; $JobsHubu[1] = $titleList; $JobsHubu[2] = $linkList; return $JobsHubu; } // function makePage($link) { ....... //省略部分代码 else if(starts($link,'jobs.hubu')) { echo "进入makePage函数"; echo "处理网页".$link.'<br/>'; $curl = curl_init(); curl_setopt($curl, CURLOPT_URL , $link); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //echo $result; //echo "result结束"; $result = strip_tags($result); $result = stristr($result, ' > 通知公告'); $result = str_replace(' > 通知公告', '', $result); $result = stristr($result, '$(document).ready',true); $result = trim($result); $result = str_replace("\r\n", '<br/>', $result); $result = preg_replace('/(\<br\/\>){1,}/', '<br/>', $result); echo $result; echo '<br/><br/>'; echo "退出makePage函数"; return $result; } }
先用getJobsHubuNotice()函数获取新闻的链接,标题,日期,然后用makePage()函数获取内容
这是在makePage内部打印链接的结果,链接用浏览器打开没有问题.
你的代码呢???
你的PHP代码并没有出错, 初步怀疑是你请求时传递的 url 不正确, 见下图:
你代码中输出的那个错误, 其实是你获取到的网页上输出的内容.
再次更新,我想我知道你请求出错的原因是什么了:
你从网页中获取到的URL地址为: Detail.aspx?ArticleChannelId=81&ArticleId=2777
,
其中中 &
这个字符为 &
的HTML实体符, 在你输出的时候(即你的截图中)它显示的是&
, 而当你去真正请求的时候, 是使用的 下面这样的东东:
你只需要把它进行还原或者简单的, 把URL中的 &
替换为 &
然后再去请求就ok了.
再次更新:
<?php class HttpClient{ private $ch; function __construct($cookie_jar){ $this->ch = curl_init(); curl_setopt($this->ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/4.0; QQDownload 685; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)');//UA curl_setopt($this->ch, CURLOPT_TIMEOUT, 40); curl_setopt($this->ch, CURLOPT_FOLLOWLOCATION, TRUE); curl_setopt($this->ch, CURLOPT_AUTOREFERER, true); curl_setopt($this->ch, CURLOPT_RETURNTRANSFER, TRUE); curl_setopt($this->ch, CURLOPT_ENCODING, 'UTF-8'); curl_setopt($this->ch, CURLOPT_COOKIEJAR, $cookie_jar); curl_setopt($this->ch, CURLOPT_COOKIEFILE, $cookie_jar); } function __destruct(){ curl_close($this->ch); } final public function setReferer($ref=''){ if($ref != ''){ curl_setopt($this->ch, CURLOPT_REFERER, $ref); } } final public function Get($url, $header=false, $nobody=false){ curl_setopt($this->ch, CURLOPT_POST, false); curl_setopt($this->ch, CURLOPT_URL, $url); curl_setopt($this->ch, CURLOPT_HEADER, $header); curl_setopt($this->ch, CURLOPT_NOBODY, $nobody); return curl_exec($this->ch); } final public function Post($url, $data=array(), $header=false, $nobody=false){ curl_setopt($this->ch, CURLOPT_URL, $url); curl_setopt($this->ch, CURLOPT_HEADER, $header); curl_setopt($this->ch, CURLOPT_NOBODY, $nobody); curl_setopt($this->ch, CURLOPT_POST, true); curl_setopt($this->ch, CURLOPT_POSTFIELDS, http_build_query($data)); return curl_exec($this->ch); } } const ROOT_URL = 'http://jobs.hubu.edu.cn/'; $home = 'http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81'; $http = new HttpClient('cookie.txt'); //获取列表页 $html = $http->Get($home); //用正则匹配出来 当前页 所有的 文章 preg_match_all('/<td class="newslist" align="left"><a id=".+?" title="(.+?)" href="(.+?)" target="_self">.+?<\/a>\s+\[(\d+\-\d+)\]/', $html, $links); array_shift($links);//删除掉第一个 $size = count($links[0]); for($i=0; $i<$size; $i++){//有匹配到结果 $title = $links[0][$i]; $url = htmlspecialchars_decode($links[1][$i]);//还原URL中的 HTML 实体符为原始的字符 $date = date('Y') . '-' . $links[2][$i]; echo $date, "\t", $title, "\t", $url, "\n"; //makePage($url); } function makePage($url){ global $http;//使用全局变量中的那个 HttpClient 实例 $html = $http->Get(ROOT_URL . $url);//拼接完整的URL //$html 就是页面的内容 }
因为无聊帮你更新一下代码, 上面为我自己根据你之前的代码编写而成, 下图为运行结果(makePage
里面加你自己的代码):
makePage($link)
$link有值么,类型对么?

php把负数转为正整数的方法:1、使用abs()函数将负数转为正数,使用intval()函数对正数取整,转为正整数,语法“intval(abs($number))”;2、利用“~”位运算符将负数取反加一,语法“~$number + 1”。

实现方法:1、使用“sleep(延迟秒数)”语句,可延迟执行函数若干秒;2、使用“time_nanosleep(延迟秒数,延迟纳秒数)”语句,可延迟执行函数若干秒和纳秒;3、使用“time_sleep_until(time()+7)”语句。

php除以100保留两位小数的方法:1、利用“/”运算符进行除法运算,语法“数值 / 100”;2、使用“number_format(除法结果, 2)”或“sprintf("%.2f",除法结果)”语句进行四舍五入的处理值,并保留两位小数。

判断方法:1、使用“strtotime("年-月-日")”语句将给定的年月日转换为时间戳格式;2、用“date("z",时间戳)+1”语句计算指定时间戳是一年的第几天。date()返回的天数是从0开始计算的,因此真实天数需要在此基础上加1。

方法:1、用“str_replace(" ","其他字符",$str)”语句,可将nbsp符替换为其他字符;2、用“preg_replace("/(\s|\ \;||\xc2\xa0)/","其他字符",$str)”语句。

php判断有没有小数点的方法:1、使用“strpos(数字字符串,'.')”语法,如果返回小数点在字符串中第一次出现的位置,则有小数点;2、使用“strrpos(数字字符串,'.')”语句,如果返回小数点在字符串中最后一次出现的位置,则有。

php字符串有下标。在PHP中,下标不仅可以应用于数组和对象,还可应用于字符串,利用字符串的下标和中括号“[]”可以访问指定索引位置的字符,并对该字符进行读写,语法“字符串名[下标值]”;字符串的下标值(索引值)只能是整数类型,起始值为0。

在php中,可以使用substr()函数来读取字符串后几个字符,只需要将该函数的第二个参数设置为负值,第三个参数省略即可;语法为“substr(字符串,-n)”,表示读取从字符串结尾处向前数第n个字符开始,直到字符串结尾的全部字符。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版
中国語版、とても使いやすい

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

VSCode Windows 64 ビットのダウンロード
Microsoft によって発売された無料で強力な IDE エディター
