>  기사  >  백엔드 개발  >  기본 크롤러 튜토리얼: PHP와 정규식을 사용하여 HTML 구문 분석

기본 크롤러 튜토리얼: PHP와 정규식을 사용하여 HTML 구문 분석

王林
王林원래의
2023-06-13 10:35:101597검색

인터넷의 급속한 발전과 함께 우리는 일상 생활과 업무의 기반으로 웹 페이지에서 대량의 데이터를 추출해야 하며, 이를 위해서는 크롤러 도구를 사용해야 합니다. 이 기사에서는 PHP와 정규식을 사용하여 HTML 문서를 기반으로 데이터를 구문 분석하는 방법을 소개합니다.

1. 크롤러 개요

크롤러를 자세히 이해하기 전에 크롤러가 무엇인지 알아야 합니다. 소위 크롤러는 인터넷에서 자동으로 정보를 수집하고 스크리닝, 통합, 분석 등의 처리를 수행하여 최종적으로 특정 데이터 세트를 형성할 수 있는 네트워크 데이터 수집 도구입니다. 크롤러는 주로 데이터 마이닝, 비즈니스 경쟁 정보 수집, 학술 연구 등의 분야에서 사용됩니다.

2. PHP를 사용하여 HTML 구문 분석

크롤러를 만들기 전에 HTML 문서에서 데이터를 구문 분석하는 방법을 이해해야 합니다. 서버 측 스크립팅 언어로서 PHP는 매우 편리한 HTML 구문 분석 기능을 가지고 있습니다. 일반적으로 사용되는 HTML 구문 분석 라이브러리에는 simple_html_dom, phpQuery 등이 있습니다. 이러한 라이브러리는 PHP에서 CSS 선택기와 jQuery 방식 구문을 사용할 수 있는 편의성을 제공하며 HTML 파일의 데이터를 쉽게 구문 분석할 수 있습니다.

정규식을 사용하여 HTML을 구문 분석하는 방법을 소개하기 전에 HTML 구문 분석에 simple_html_dom을 사용하는 방법을 살펴보겠습니다. 이는 매우 편리하고 사용하기 쉬운 HTML 구문 분석기입니다.

require_once('simple_html_dom.php');
$html = file_get_html('http://example.com/');
echo $html->find('title',0)->plaintext;

위 코드는 지정된 URL(http://example.com/)에서 제목 태그의 내용을 얻어서 출력할 수 있습니다. $html은 HTML DOM 개체입니다.

3. 정규식을 사용하여 HTML 구문 분석

정규식은 텍스트 패턴(문자열 패턴)을 설명하는 방법이며 일반적인 패턴 일치 도구입니다. 정규식을 사용하면 데이터 검색, 교체, 분리 등을 포함하여 텍스트에 대해 다양하고 복잡한 작업을 쉽게 수행할 수 있습니다. HTML 데이터를 구문 분석할 때 특정 태그, 속성 또는 콘텐츠를 일치시키고 추출하기 위해 정규식을 사용해야 하는 경우가 많습니다.

다음은 HTML 코드에서 img 태그를 구문 분석하는 간단한 예입니다.

$match = preg_match_all('/<img.*?src=["|']?(.*?)["|']?s.*?>/i', $html, $out_img, PREG_SET_ORDER);
foreach ($out_img as $img_item) {
    echo $img_item[1];    
}

위 코드는 preg_match_all 함수를 사용하여 정규식을 통해 HTML의 a1f02c36ba31691bcfe87b2722de723b 태그를 일치시키고 src 속성 값을 추출하여 출력합니다. 화면에.

4. 크롤러 구현

위의 코드 예제를 기반으로 약간 수정하고 컬 라이브러리와 결합하여 간단한 크롤러를 구현할 수 있습니다. 다음 코드는 지정된 페이지를 다운로드하고 그 안에 있는 모든 링크 주소를 추출할 수 있습니다.

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://www.example.com/');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//将页面转化成字符串,而不是直接输出
$html = curl_exec($ch);
curl_close($ch);

preg_match_all('/<a.*?href=["|']?(.*?)["|']?s.*?>/i', $html, $out_links, PREG_SET_ORDER);

foreach ($out_links as $link_item) {
    echo $link_item[1].PHP_EOL;//输出链接地址
}

위 코드에서는 컬 라이브러리를 사용하여 웹 페이지 소스 코드를 얻습니다. PREG_SET_ORDER 매개변수는 일반 페이지의 출력 순서에 따라 일치함을 나타냅니다. 표현. 이 크롤러는 간단한 링크 추출 기능을 완료할 수 있습니다. 물론 더 많은 요구 사항을 충족하기 위해 다른 정규식 패턴을 결합하여 확장할 수도 있습니다.

5. 요약

위는 PHP와 정규식을 사용하여 HTML 문서를 구문 분석하는 방법에 대한 기본 지식입니다. 실제 작업에서는 실제 요구 사항과 웹 페이지 구조에 따라 다양한 구문 분석 방법을 선택하고 다른 도구와 라이브러리를 적절하게 결합하여 복잡한 데이터 구문 분석 작업을 완료해야 합니다.

위 내용은 기본 크롤러 튜토리얼: PHP와 정규식을 사용하여 HTML 구문 분석의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.