>백엔드 개발 >PHP 튜토리얼 >PHP 크롤러 연습: Baidu 검색 결과 크롤링

PHP 크롤러 연습: Baidu 검색 결과 크롤링

WBOY
WBOY원래의
2023-06-13 12:39:262034검색

인터넷의 발달로 우리는 다양한 검색엔진을 통해 다양한 정보를 쉽게 얻을 수 있습니다. 개발자에게는 검색 엔진에서 다양한 데이터를 얻는 방법이 매우 중요한 기술입니다. 오늘은 PHP를 사용하여 Baidu 검색 결과를 크롤링하는 크롤러를 작성하는 방법을 알아 보겠습니다.

1. 크롤러 작동 방식

시작하기 전에 먼저 크롤러 작동 방식의 기본 원리를 이해해 보겠습니다.

  1. 먼저 크롤러는 웹사이트의 콘텐츠를 요청하기 위해 서버에 요청을 보냅니다.
  2. 서버가 요청을 받은 후 웹페이지의 콘텐츠를 반환합니다.
  3. 콘텐츠를 수신한 후 크롤러는 정규식 및 기타 방법을 통해 콘텐츠를 구문 분석하여 필요한 데이터를 추출합니다.
  4. 마지막으로 크롤러는 데이터를 데이터베이스나 파일에 저장합니다.

2. Baidu 검색결과를 크롤링하는 과정

  1. 요청 URL 구성

먼저 키워드를 기반으로 요청 URL을 구성해야 합니다. 예를 들어 "PHP 크롤러"를 검색하면 요청 URL은 다음과 같습니다: https://www.baidu.com/s?ie=UTF-8&wd=PHP%20%E7%88%AC%E8%99%AB

그 중 ie=UTF-8은 UTF-8 인코딩을 사용한다는 의미입니다. wd= 뒤에 검색어가 옵니다.

  1. 페이지 콘텐츠를 가져오기 위해 요청 보내기

PHP에서는 cURL 라이브러리를 사용하여 HTTP 요청을 보낼 수 있습니다. 구체적인 구현 코드는 다음과 같습니다.

<?php
function curl_request($url) {
    $ch = curl_init();
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_HEADER, 0);
    $output = curl_exec($ch);
    curl_close($ch);
    return $output;
}

$url = 'https://www.baidu.com/s?ie=UTF-8&wd=PHP%20%E7%88%AC%E8%99%AB';
$html = curl_request($url);
echo $html;
?>

여기에서는 컬_request() 함수를 사용하여 요청을 보내고 페이지 콘텐츠를 가져옵니다.

  1. 페이지 콘텐츠 구문 분석

다음으로 정규 표현식을 사용하여 페이지 콘텐츠를 구문 분석하고 검색 결과에 필요한 데이터를 추출해야 합니다. 브라우저의 개발자 도구를 사용하여 페이지 소스 코드를 보고 필요한 데이터에 해당하는 HTML 요소를 찾은 다음 정규식을 사용하여 일치시킬 수 있습니다.

예를 들어, 검색 결과의 제목과 링크를 얻으려면 페이지 소스 코드에서 다음 코드를 찾을 수 있습니다.

<h3 class="t"><a href="链接地址" target="_blank">标题</a></h3>

일치를 위해 다음 정규식을 사용할 수 있습니다.

$pattern = '/<h3 class="t"><a([sS]*?)href="(.*?)"[sS]*?>([sS]*?)</a></h3>/';
preg_match_all($pattern, $html, $matches);

여기서는 다음을 사용합니다. preg_match_all() 함수를 사용하여 정규식 일치를 구현하고 일치 결과를 $matches 변수에 저장합니다.

  1. 결과 출력

마지막으로 추출된 검색 결과를 출력하여 원하는 데이터를 얻습니다. 구체적인 구현 코드는 다음과 같습니다.

 $url) {
    echo ($key + 1) . '、' . $matches[3][$key] . '
'; } ?>

여기에서는 foreach 루프를 사용하여 일치하는 링크와 제목을 순회하고 결과를 페이지에 출력합니다.

3. 요약

이 글의 소개를 통해 우리는 PHP 크롤러의 기본 원리와 PHP를 사용하여 Baidu 검색 결과를 크롤링하는 방법을 이해했습니다. 동시에 우리는 크롤러를 사용하려면 법적, 윤리적 및 기타 문제에 주의를 기울여야 한다는 사실도 인지했습니다. 관련 규정을 준수하고 불법적이거나 불법적인 크롤링 작업을 수행해서는 안 됩니다.

위 내용은 PHP 크롤러 연습: Baidu 검색 결과 크롤링의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.