이 기사의 예에서는 PHP를 사용하여 웹페이지를 크롤링하고 분석하는 방법을 설명합니다. 참고하실 수 있도록 모든 사람과 공유하세요. 자세한 내용은 다음과 같습니다.
파일을 크롤링하고 분석하는 것은 매우 간단합니다. 이 튜토리얼에서는 이를 구현하는 예제를 단계별로 안내합니다. 시작해 봅시다!
먼저 크롤링할 URL 주소를 결정해야 합니다. 이는 스크립트에서 설정하거나 $QUERY_STRING을 통해 전달할 수 있습니다. 단순화를 위해 스크립트에서 직접 변수를 설정해 보겠습니다.
<?php $url = 'http://www.php.net'; ?>
두 번째 단계에서는 지정된 파일을 가져와 file() 함수를 통해 배열에 저장합니다.
<?php $url = 'http://www.php.net'; $lines_array = file($url); ?>
자, 이제 배열에 파일이 생겼습니다. 그러나 분석하려는 텍스트가 모두 한 줄에 있지 않을 수도 있습니다. 이 파일을 해결하려면 간단히 $lines_array 배열을 문자열로 변환하면 됩니다. 이를 달성하기 위해 implode(x,y) 함수를 사용할 수 있습니다. 나중에 분해(문자열 변수 배열)를 사용하려면 x를 "|" 또는 "!" 또는 기타 유사한 구분 기호로 설정하는 것이 더 나을 수 있습니다. 그러나 우리의 목적을 위해서는 x를 공백으로 설정하는 것이 가장 좋습니다. y는 implode()로 처리하려는 배열이기 때문에 또 다른 필수 매개변수입니다.
<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); ?>
크롤링 작업이 완료되었으니 이제 분석할 차례입니다. 이 예에서는
와 사이의 모든 항목을 가져오려고 합니다. 문자열을 구문 분석하려면 정규식이라는 것이 필요합니다.<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head); ?>
코드를 살펴보겠습니다. 보시다시피 eregi() 함수는 다음 형식으로 실행됩니다.
eregi("<head>(.*)</head>", $lines_string, $head);
"(.*)"는 모든 것을 의미하며 "
와 사이의 모든 것을 분석한다"로 해석될 수 있습니다. $lines_string은 우리가 분석하고 있는 문자열이고, $head는 분석된 결과가 저장되는 배열입니다.마지막으로 데이터를 입력할 수 있습니다.
와 사이에는 인스턴스가 하나만 있으므로 배열에 요소가 하나만 있고 이것이 우리가 원하는 요소라고 안전하게 가정할 수 있습니다. 인쇄해 봅시다.<?php $url = 'http://www.php.net'; $lines_array = file($url); $lines_string = implode('', $lines_array); eregi("<head>(.*)</head>", $lines_string, $head); echo $head[0]; ?>
이것이 코드의 전부입니다.
<?php //获取所有内容url保存到文件 function get_index ( $save_file , $prefix = "index_" ){ $count = 68 ; $i = 1 ; if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open " . $save_file . " failed" ); while( $i < $count ){ $url = $prefix . $i . ".htm" ; echo "Get " . $url . "..." ; $url_str = get_content_url ( get_url ( $url )); echo " OK/n" ; fwrite ( $fp , $url_str ); ++ $i ; } fclose ( $fp ); } //获取目标多媒体对象 function get_object ( $url_file , $save_file , $split = "|--:**:--|" ){ if (! file_exists ( $url_file )) die( $url_file . " not exist" ); $file_arr = file ( $url_file ); if (! is_array ( $file_arr ) || empty( $file_arr )) die( $url_file . " not content" ); $url_arr = array_unique ( $file_arr ); if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" ); foreach( $url_arr as $url ){ if (empty( $url )) continue; echo "Get " . $url . "..." ; $html_str = get_url ( $url ); echo $html_str ; echo $url ; exit; $obj_str = get_content_object ( $html_str ); echo " OK/n" ; fwrite ( $fp , $obj_str ); } fclose ( $fp ); } //遍历目录获取文件内容 function get_dir ( $save_file , $dir ){ $dp = opendir ( $dir ); if ( file_exists ( $save_file )) @ unlink ( $save_file ); $fp = fopen ( $save_file , "a+" ) or die( "Open save file " . $save_file . " failed" ); while(( $file = readdir ( $dp )) != false ){ if ( $file != "." && $file != ".." ){ echo "Read file " . $file . "..." ; $file_content = file_get_contents ( $dir . $file ); $obj_str = get_content_object ( $file_content ); echo " OK/n" ; fwrite ( $fp , $obj_str ); } } fclose ( $fp ); } //获取指定url内容 function get_url ( $url ){ $reg = '/^http:////[^//].+$/' ; if (! preg_match ( $reg , $url )) die( $url . " invalid" ); $fp = fopen ( $url , "r" ) or die( "Open url: " . $url . " failed." ); while( $fc = fread ( $fp , 8192 )){ $content .= $fc ; } fclose ( $fp ); if (empty( $content )){ die( "Get url: " . $url . " content failed." ); } return $content ; } //使用socket获取指定网页 function get_content_by_socket ( $url , $host ){ $fp = fsockopen ( $host , 80 ) or die( "Open " . $url . " failed" ); $header = "GET /" . $url . " HTTP/1.1/r/n" ; $header .= "Accept: */*/r/n" ; $header .= "Accept-Language: zh-cn/r/n" ; $header .= "Accept-Encoding: gzip, deflate/r/n" ; $header .= "User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Maxthon; InfoPath.1; .NET CLR 2.0.50727)/r/n" ; $header .= "Host: " . $host . "/r/n" ; $header .= "Connection: Keep-Alive/r/n" ; //$header .= "Cookie: cnzz02=2; rtime=1; ltime=1148456424859; cnzz_eid=56601755-/r/n/r/n"; $header .= "Connection: Close/r/n/r/n" ; fwrite ( $fp , $header ); while (! feof ( $fp )) { $contents .= fgets ( $fp , 8192 ); } fclose ( $fp ); return $contents ; } //获取指定内容里的url function get_content_url ( $host_url , $file_contents ){ //$reg = '/^(#|<a href="http://lib.csdn.net/base/18" class='replace_word' title="JavaScript知识库" target='_blank' style='color:#df3434; font-weight:bold;'>JavaScript</a>.*?|ftp:////.+|http:////.+|.*?href.*?|play.*?|index.*?|.*?asp)+$/i'; //$reg = '/^(down.*?/.html|/d+_/d+/.htm.*?)$/i'; $rex = "/([hH][rR][eE][Ff])/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*/i" ; $reg = '/^(down.*?/.html)$/i' ; preg_match_all ( $rex , $file_contents , $r ); $result = "" ; //array(); foreach( $r as $c ){ if ( is_array ( $c )){ foreach( $c as $d ){ if ( preg_match ( $reg , $d )){ $result .= $host_url . $d . "/n" ; } } } } return $result ; } //获取指定内容中的多媒体文件 function get_content_object ( $str , $split = "|--:**:--|" ){ $regx = "/href/s*=/s*['/"]*([^>'/"/s]+)[/"'>]*/s*(.*?<//b>)/i" ; preg_match_all ( $regx , $str , $result ); if ( count ( $result ) == 3 ){ $result [ 2 ] = str_replace ( "多媒体: " , "" , $result [ 2 ]); $result [ 2 ] = str_replace ( " " , "" , $result [ 2 ]); $result = $result [ 1 ][ 0 ] . $split . $result [ 2 ][ 0 ] . "/n" ; } return $result ; } ?>
더 많은 PHP 관련 콘텐츠에 관심이 있는 독자는 이 사이트의 특별 주제를 확인할 수 있습니다. "PHP 정규 표현식 사용 요약", "PHP Ajax 기술 및 응용 프로그램 요약", " PHP 연산 및 연산자 사용법 요약", "PHP 네트워크 프로그래밍 기술 요약", "PHP 기본 구문 입문 튜토리얼", " PHP 운영실 문서기술 요약(워드, 엑셀, 액세스, ppt 포함) ", "PHP 날짜 및 시간 활용 요약", "PHP 객체지향 프로그래밍 입문 튜토리얼 ", " php 문자열(문자열) 사용법 요약", "php mysql 데이터베이스 작업 튜토리얼 소개" 및 "일반적인 php 데이터베이스 작업 요약 스킬"
이 기사가 PHP 프로그래밍에 종사하는 모든 사람에게 도움이 되기를 바랍니다.

thesecrettokeepingAphp-poweredwebsiterunningsmoothlydlyUnderHeavyloadInvolvesEveralKeyStrategies : 1) ubstractOpCodeCachingWithOpCacheTecescripteExecutionTime, 2) usedatabasequeryCachingwithRedSendatabaseload, 3) LeverAgeCdnslikeCloudforforporerververforporporpin

Code는 코드가 더 명확하고 유지 관리하기 쉽기 때문에 의존성 주입 (DI)에 관심을 가져야합니다. 1) DI는 클래스를 분리하여 더 모듈 식으로 만들고, 2) 테스트 및 코드 유연성의 편의성을 향상시키고, 3) DI 컨테이너를 사용하여 복잡한 종속성을 관리하지만 성능 영향 및 순환 종속성에주의를 기울이십시오. 4) 모범 사례는 추상 인터페이스에 의존하여 느슨한 커플 링을 달성하는 것입니다.

예, PPAPPLICATIONISPOSSIBLEADESLESTION.1) INVERECINGUSINGAPCUTERODUCEDABASELOAD.2) INCODINCEDEXING, ENGICIONEQUERIES 및 CONNECTIONPOULING.3) 향상된 보드 바이어링, 플로 팅 포르코 잉을 피하는 최적화 된 APPCUTERODECEDATABASELOAD.2)

theKeyStrategiesToSINCINTIFILINTINTIFILINTINTHPPORMATIONPERFORMANCEARE : 1) USEOPCODECACHING-CCHACHETEDECUTECUTINGTIME, 2) 최적화 된 ABESINSTEMENTEMENDSTEMENTEMENDSENDSTATEMENTENDS 및 PROPERINDEXING, 3) ConfigureWebSerVERSLIKENGINXXWITHPMFORBETPERMERCORMANCES, 4)

aphpdectionenceindectioncontainerisatoolthatmanagesclassdependencies, 향상 Codemodularity, testability 및 maintainability.itactAsacentralHubForCreatingAndingDinjectingDingingDingingdecting.

대규모 응용 프로그램의 경우 SELLENCIONINGESS (DI)를 선택하십시오. ServicElocator는 소규모 프로젝트 또는 프로토 타입에 적합합니다. 1) DI는 생성자 주입을 통한 코드의 테스트 가능성과 모듈성을 향상시킵니다. 2) Servicelocator는 센터 등록을 통해 서비스를 얻습니다. 이는 편리하지만 코드 커플 링이 증가 할 수 있습니다.

phPapplicationSCanBeoptimizedForsPeedandefficiencyby : 1) ENABLEOPCACHEINPHP.INI, 2) PREPAREDSTATEMENTSWITHPDOFORDATABASEQUERIES 사용

phpeMailValidationInvoLvestHreesteps : 1) formatValidationUsingRegularexpressionsTochemailformat; 2) dnsValidationToErethedomainHasaValidMxRecord; 3) smtpvalidation, theSTHOROUGHMETHOD, theCheckSiftheCefTHECCECKSOCCONNECTERTETETETETETETWERTETWERTETWER


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

VSCode Windows 64비트 다운로드
Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!