코드 복사 코드는 다음과 같습니다.
//html 수집
function getwebcontent($url){
$ ch = 컬_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); , $timeout );
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1)
$contents = Trim(curl_exec($ch))
return $contents; 🎜>}
//제목 및 URL 가져오기
$string =
getwebcontent('http://www.***.com/learn/zhunbeihuaiyun/jijibeiyun/2')
/ /정규 매칭
제목 및 주소 가져오기
preg_match_all ("/(.*)/ ",$ string, $out, PREG_SET_ORDER);
foreach($out as $key => $value){
$article['title'][] = $out[$key][2] ;
$article['link'][] = "http://www.***.com/learn/article/".$out[$key][1]
}
//url에 따라 기사 콘텐츠 가져오기
foreach($article['link'] as $key=>$value){
$content_html = getwebcontent($article['link'][$key]) ;
preg_match("/[s|S]*?
/",$content_html,$matches)
$article[content] [$key] = $matches[0];
}
//트랜스코딩 없이는 파일로 저장할 수 없습니다
foreach($article[title] as $key=>$value ){
$article [제목][$key] = iconv('utf-8', 'gbk', $value);//트랜스코딩
}
//파일에 저장
$ num = count($article ['title']);
for($i=0; $i<$num; $i ){
file_put_contents("{$article[title][$i]} .txt", $article ['content'][$i]);
}
?>
위 내용은 PHP 기사 수집을 위한 정규 코드를 소개하고 있으며, PHP 튜토리얼에 관심이 있는 친구들에게 도움이 되기를 바랍니다.