使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722可行,但是如果抓取相同类型的一系列网站就会出错,将他们放在数组
$linkList中,分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5325等等。
function getJobsHubuNotice() { $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81'); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //内容处理 $result = strip_tags($result,'<a>'); $result = stristr($result, 'nbsp当前位置:'); $result = str_replace('nbsp当前位置:', '', $result); $result = stristr($result, '当前1/2页',true); $result = stristr($result, '通知公告'); $result = str_replace('通知公告</a>', '', $result); preg_match_all('/(?<=href=\").*?(?=\")/', $result, $arrayTemp); $linkList = $arrayTemp[0]; preg_match_all('/(?<=title=\").*?(?=\")/', $result, $arrayTemp); $titleList = $arrayTemp[0]; preg_match_all('/(?<=\[)\d*\-\d*(?=\])/', $result, $arrayTemp); $dateList_temp = $arrayTemp[0]; $dateList = array(); $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList); foreach ($dateList_temp as $key => $value) { $dateList[$key] = date('Y').'-'.$value; } $JobsHubu = array(); //分别获得网页上的每条通知的标题,链接,时间 $JobsHubu[0] = $dateList; $JobsHubu[1] = $titleList; $JobsHubu[2] = $linkList; return $JobsHubu; } // function makePage($link) { ....... //省略部分代码 else if(starts($link,'jobs.hubu')) { echo "进入makePage函数"; echo "处理网页".$link.'<br/>'; $curl = curl_init(); curl_setopt($curl, CURLOPT_URL , $link); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //echo $result; //echo "result结束"; $result = strip_tags($result); $result = stristr($result, ' > 通知公告'); $result = str_replace(' > 通知公告', '', $result); $result = stristr($result, '$(document).ready',true); $result = trim($result); $result = str_replace("\r\n", '<br/>', $result); $result = preg_replace('/(\<br\/\>){1,}/', '<br/>', $result); echo $result; echo '<br/><br/>'; echo "退出makePage函数"; return $result; } }
先用getJobsHubuNotice()函数获取新闻的链接,标题,日期,然后用makePage()函数获取内容
这是在makePage内部打印链接的结果,链接用浏览器打开没有问题.
回复内容:
使用curl单独抓取http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722可行,但是如果抓取相同类型的一系列网站就会出错,将他们放在数组
$linkList中,分别是http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5722, http://jobs.hubu.edu.cn/Detail.aspx?ArticleChannelId=81&ArticleId=5325等等。
function getJobsHubuNotice() { $curl = curl_init('http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81'); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //内容处理 $result = strip_tags($result,'<a>'); $result = stristr($result, 'nbsp当前位置:'); $result = str_replace('nbsp当前位置:', '', $result); $result = stristr($result, '当前1/2页',true); $result = stristr($result, '通知公告'); $result = str_replace('通知公告</a>', '', $result); preg_match_all('/(?<=href=\").*?(?=\")/', $result, $arrayTemp); $linkList = $arrayTemp[0]; preg_match_all('/(?<=title=\").*?(?=\")/', $result, $arrayTemp); $titleList = $arrayTemp[0]; preg_match_all('/(?<=\[)\d*\-\d*(?=\])/', $result, $arrayTemp); $dateList_temp = $arrayTemp[0]; $dateList = array(); $linkList = str_replace('Detail.aspx', 'http://jobs.hubu.edu.cn/Detail.aspx', $linkList); foreach ($dateList_temp as $key => $value) { $dateList[$key] = date('Y').'-'.$value; } $JobsHubu = array(); //分别获得网页上的每条通知的标题,链接,时间 $JobsHubu[0] = $dateList; $JobsHubu[1] = $titleList; $JobsHubu[2] = $linkList; return $JobsHubu; } // function makePage($link) { ....... //省略部分代码 else if(starts($link,'jobs.hubu')) { echo "进入makePage函数"; echo "处理网页".$link.'<br/>'; $curl = curl_init(); curl_setopt($curl, CURLOPT_URL , $link); curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); $result = curl_exec($curl); //echo $result; //echo "result结束"; $result = strip_tags($result); $result = stristr($result, ' > 通知公告'); $result = str_replace(' > 通知公告', '', $result); $result = stristr($result, '$(document).ready',true); $result = trim($result); $result = str_replace("\r\n", '<br/>', $result); $result = preg_replace('/(\<br\/\>){1,}/', '<br/>', $result); echo $result; echo '<br/><br/>'; echo "退出makePage函数"; return $result; } }
先用getJobsHubuNotice()函数获取新闻的链接,标题,日期,然后用makePage()函数获取内容
这是在makePage内部打印链接的结果,链接用浏览器打开没有问题.
你的代码呢???
你的PHP代码并没有出错, 初步怀疑是你请求时传递的 url 不正确, 见下图:
你代码中输出的那个错误, 其实是你获取到的网页上输出的内容.
再次更新,我想我知道你请求出错的原因是什么了:
你从网页中获取到的URL地址为: Detail.aspx?ArticleChannelId=81&ArticleId=2777
,
其中中 &
这个字符为 &
的HTML实体符, 在你输出的时候(即你的截图中)它显示的是&
, 而当你去真正请求的时候, 是使用的 下面这样的东东:
你只需要把它进行还原或者简单的, 把URL中的 &
替换为 &
然后再去请求就ok了.
再次更新:
<?php class HttpClient{ private $ch; function __construct($cookie_jar){ $this->ch = curl_init(); curl_setopt($this->ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; Trident/4.0; QQDownload 685; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET4.0C; .NET4.0E)');//UA curl_setopt($this->ch, CURLOPT_TIMEOUT, 40); curl_setopt($this->ch, CURLOPT_FOLLOWLOCATION, TRUE); curl_setopt($this->ch, CURLOPT_AUTOREFERER, true); curl_setopt($this->ch, CURLOPT_RETURNTRANSFER, TRUE); curl_setopt($this->ch, CURLOPT_ENCODING, 'UTF-8'); curl_setopt($this->ch, CURLOPT_COOKIEJAR, $cookie_jar); curl_setopt($this->ch, CURLOPT_COOKIEFILE, $cookie_jar); } function __destruct(){ curl_close($this->ch); } final public function setReferer($ref=''){ if($ref != ''){ curl_setopt($this->ch, CURLOPT_REFERER, $ref); } } final public function Get($url, $header=false, $nobody=false){ curl_setopt($this->ch, CURLOPT_POST, false); curl_setopt($this->ch, CURLOPT_URL, $url); curl_setopt($this->ch, CURLOPT_HEADER, $header); curl_setopt($this->ch, CURLOPT_NOBODY, $nobody); return curl_exec($this->ch); } final public function Post($url, $data=array(), $header=false, $nobody=false){ curl_setopt($this->ch, CURLOPT_URL, $url); curl_setopt($this->ch, CURLOPT_HEADER, $header); curl_setopt($this->ch, CURLOPT_NOBODY, $nobody); curl_setopt($this->ch, CURLOPT_POST, true); curl_setopt($this->ch, CURLOPT_POSTFIELDS, http_build_query($data)); return curl_exec($this->ch); } } const ROOT_URL = 'http://jobs.hubu.edu.cn/'; $home = 'http://jobs.hubu.edu.cn/List.aspx?ArticleChannelId=81'; $http = new HttpClient('cookie.txt'); //获取列表页 $html = $http->Get($home); //用正则匹配出来 当前页 所有的 文章 preg_match_all('/<td class="newslist" align="left"><a id=".+?" title="(.+?)" href="(.+?)" target="_self">.+?<\/a>\s+\[(\d+\-\d+)\]/', $html, $links); array_shift($links);//删除掉第一个 $size = count($links[0]); for($i=0; $i<$size; $i++){//有匹配到结果 $title = $links[0][$i]; $url = htmlspecialchars_decode($links[1][$i]);//还原URL中的 HTML 实体符为原始的字符 $date = date('Y') . '-' . $links[2][$i]; echo $date, "\t", $title, "\t", $url, "\n"; //makePage($url); } function makePage($url){ global $http;//使用全局变量中的那个 HttpClient 实例 $html = $http->Get(ROOT_URL . $url);//拼接完整的URL //$html 就是页面的内容 }
因为无聊帮你更新一下代码, 上面为我自己根据你之前的代码编写而成, 下图为运行结果(makePage
里面加你自己的代码):
makePage($link)
$link有值么,类型对么?

PHP는 동적 웹 사이트를 구축하는 데 사용되며 해당 핵심 기능에는 다음이 포함됩니다. 1. 데이터베이스와 연결하여 동적 컨텐츠를 생성하고 웹 페이지를 실시간으로 생성합니다. 2. 사용자 상호 작용 및 양식 제출을 처리하고 입력을 확인하고 작업에 응답합니다. 3. 개인화 된 경험을 제공하기 위해 세션 및 사용자 인증을 관리합니다. 4. 성능을 최적화하고 모범 사례를 따라 웹 사이트 효율성 및 보안을 개선하십시오.

PHP는 MySQLI 및 PDO 확장 기능을 사용하여 데이터베이스 작업 및 서버 측 로직 프로세싱에서 상호 작용하고 세션 관리와 같은 기능을 통해 서버 측로 로직을 처리합니다. 1) MySQLI 또는 PDO를 사용하여 데이터베이스에 연결하고 SQL 쿼리를 실행하십시오. 2) 세션 관리 및 기타 기능을 통해 HTTP 요청 및 사용자 상태를 처리합니다. 3) 트랜잭션을 사용하여 데이터베이스 작업의 원자력을 보장하십시오. 4) SQL 주입 방지, 디버깅을 위해 예외 처리 및 폐쇄 연결을 사용하십시오. 5) 인덱싱 및 캐시를 통해 성능을 최적화하고, 읽을 수있는 코드를 작성하고, 오류 처리를 수행하십시오.

PHP에서 전처리 문과 PDO를 사용하면 SQL 주입 공격을 효과적으로 방지 할 수 있습니다. 1) PDO를 사용하여 데이터베이스에 연결하고 오류 모드를 설정하십시오. 2) 준비 방법을 통해 전처리 명세서를 작성하고 자리 표시자를 사용하여 데이터를 전달하고 방법을 실행하십시오. 3) 쿼리 결과를 처리하고 코드의 보안 및 성능을 보장합니다.

PHP와 Python은 고유 한 장점과 단점이 있으며 선택은 프로젝트 요구와 개인 선호도에 달려 있습니다. 1.PHP는 대규모 웹 애플리케이션의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 데이터 과학 및 기계 학습 분야를 지배합니다.

PHP는 전자 상거래, 컨텐츠 관리 시스템 및 API 개발에 널리 사용됩니다. 1) 전자 상거래 : 쇼핑 카트 기능 및 지불 처리에 사용됩니다. 2) 컨텐츠 관리 시스템 : 동적 컨텐츠 생성 및 사용자 관리에 사용됩니다. 3) API 개발 : 편안한 API 개발 및 API 보안에 사용됩니다. 성능 최적화 및 모범 사례를 통해 PHP 애플리케이션의 효율성과 유지 보수 성이 향상됩니다.

PHP를 사용하면 대화식 웹 컨텐츠를 쉽게 만들 수 있습니다. 1) HTML을 포함하여 컨텐츠를 동적으로 생성하고 사용자 입력 또는 데이터베이스 데이터를 기반으로 실시간으로 표시합니다. 2) 프로세스 양식 제출 및 동적 출력을 생성하여 htmlspecialchars를 사용하여 XSS를 방지합니다. 3) MySQL을 사용하여 사용자 등록 시스템을 작성하고 Password_Hash 및 전처리 명세서를 사용하여 보안을 향상시킵니다. 이러한 기술을 마스터하면 웹 개발의 효율성이 향상됩니다.

PHP와 Python은 각각 고유 한 장점이 있으며 프로젝트 요구 사항에 따라 선택합니다. 1.PHP는 웹 개발, 특히 웹 사이트의 빠른 개발 및 유지 보수에 적합합니다. 2. Python은 간결한 구문을 가진 데이터 과학, 기계 학습 및 인공 지능에 적합하며 초보자에게 적합합니다.

PHP는 여전히 역동적이며 현대 프로그래밍 분야에서 여전히 중요한 위치를 차지하고 있습니다. 1) PHP의 단순성과 강력한 커뮤니티 지원으로 인해 웹 개발에 널리 사용됩니다. 2) 유연성과 안정성은 웹 양식, 데이터베이스 작업 및 파일 처리를 처리하는 데 탁월합니다. 3) PHP는 지속적으로 발전하고 최적화하며 초보자 및 숙련 된 개발자에게 적합합니다.


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

Dreamweaver Mac版
시각적 웹 개발 도구
