>백엔드 개발 >PHP 튜토리얼 >PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출

PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출

PHPz
PHPz원래의
2023-06-13 10:22:402100검색

인터넷의 급속한 발전으로 정보 폭발 시대가 도래했습니다. 이런 시대에 검색엔진은 우리가 정보를 얻는 주요 도구가 되었고, 검색엔진이 제공하는 방대한 양의 데이터는 우리의 상상을 초월합니다. 그러나 일부 특정 분야의 연구자나 데이터 분석가에게 필요한 정보는 검색 결과에 포함된 데이터의 극히 일부일 수 있습니다. 이 경우 우리가 원하는 데이터를 정확히 얻으려면 크롤러를 사용해야 합니다.

이 기사에서는 PHP를 사용하여 Baidu 검색 결과에서 필요한 데이터를 추출하는 간단한 크롤러 프로그램을 작성하겠습니다. 이 프로그램의 핵심은 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 시뮬레이션한 다음 정규식 및 기타 방법을 사용하여 HTML 페이지를 구문 분석하는 것입니다.

Idea

크롤러 프로그램 작성을 시작하기 전에 몇 가지 질문을 명확히 해야 합니다.

  1. 목표: Baidu 검색 결과 페이지에서 크롤링하려는 데이터는 무엇입니까?
  2. URL: 데이터를 얻으려면 어떤 URL이 필요합니까?
  3. 데이터 형식: Baidu 검색 결과 페이지의 데이터 형식은 무엇입니까?

어떤 데이터를 얻어야 하는지 고려할 때 "PHP 크롤러"라는 키워드를 예로 들어보겠습니다. 이 키워드를 바이두에서 검색하면 다음과 같은 정보를 볼 수 있습니다.

  • 총 검색결과 수
  • 각 검색결과 제목
  • 각 검색결과 설명
  • 각 검색결과 URL

그러면 우리는 Baidu 검색 결과에서 각 결과의 제목, 설명 및 URL을 추출하는 것으로 목표를 정의할 수 있습니다.

데이터를 얻는 첫 번째 단계는 얻고자 하는 URL을 명확히 하는 것입니다. 이 예에서 우리가 얻어야 하는 URL은 https://www.baidu.com/s?wd=php%20crawler입니다. Baidu 검색창에 "php 크롤러"를 입력하면 자동으로 이 URL로 이동할 수 있습니다. https://www.baidu.com/s?wd=php%20爬虫。通过在百度搜索栏中输入“php 爬虫”,我们可以自动跳转到这个 URL。

接着,我们需要了解我们将要解析的数据的格式。在我们的例子中,搜索结果以类似下面的 HTML 代码的形式存在:

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&amp;rsp=1&amp;f=8&amp;ie=utf-8&amp;tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>,<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&amp;
            wd=&amp;eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

在以上 HTML 代码片段中,可以看到每个搜索结果都嵌套在 21796805ef09aaa51089021f05184af8 标签内。每个搜索结果都有一个标题,对应的 HTML 格式为 4fadc3c7e100e7abd749338f79a967d5,其中链接地址嵌套在 3499910bf9dac5ae3c52d5ede7383485 标签内。每个搜索结果都有一个描述,对应的 HTML 格式为 fb66738ee24dc0ed63bb579c482ae1b0。每个搜索结果还有一个网址,在 3499910bf9dac5ae3c52d5ede7383485 标签内含有 class="c-showurl"

现在我们已经明确了我们要获取到的数据的格式及我们需要解析的 HTML 数据的格式,我们已经可以开始编写我们的爬虫程序了。

编写代码

我们将我们的 PHP 爬虫代码分成了三个步骤:

  1. 获取百度搜索结果的 HTML 页面
  2. 解析 HTML 页面
  3. 将解析后的数据以数组形式返回

获取百度搜索结果的 HTML 页面

我们可以使用 PHP 的 cURL 库发送 HTTP 请求,从而获取百度搜索结果的 HTML 页面。在这个例子中,我们将搜索页面的 URL 存在 $url 变量中。然后创建一个 cURL 的句柄,并设置许多选项,例如:设置 URL、设置请求头、设置代理、设置超时、设置请求方式为 GET,最后执行这个句柄,获取 HTML 页面。

<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);

在这个例子中,我们使用了 cURL 库提供的许多选项。例如,设置请求头来模拟浏览器发送的 HTTP 请求,设置请求方式为 GET,设置超时时间,等等。

解析 HTML 页面

在获取了百度搜索结果的 HTML 页面之后,我们需要解析它来获取我们需要的信息。在这个例子中,我们将使用 PHP 的正则表达式来解析 HTML 页面。

以下是我们使用正则表达式来从 HTML 页面中提取标题、描述和链接:

<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);

在以上代码中,我们使用了 PHP 的正则表达式来匹配所有的搜索结果。然后,我们使用一个循环来遍历所有的搜索结果,从中提取出我们需要的标题、描述和链接。由于我们从 HTML 中获取到的标题和描述中会含有 HTML 标签,我们使用 strip_tags

다음으로, 파싱할 데이터의 형식을 이해해야 합니다. 우리의 경우 검색 결과는 다음과 유사한 HTML 코드 형식으로 존재합니다.

<?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}

위의 HTML 코드 스니펫에서 각 검색 결과가 5106ee6c0e689cea9248582a46384abe 태그. 각 검색결과에는 제목이 있으며 해당 HTML 형식은 ff4e2ec8753d5ab7a1c6a9335e730d21입니다. 여기서 링크 주소는 3499910bf9dac5ae3c52d5ede7383485에 중첩되어 있습니다. 태그 내부. 각 검색 결과에는 HTML 형식 21677049e5b751d69b1465bbd638c12a의 설명이 있습니다. 각 검색결과에는 3499910bf9dac5ae3c52d5ede7383485 태그 내에 class="c-showurl"이 포함된 URL도 있습니다.

이제 우리가 얻고자 하는 데이터의 형식과 구문 분석해야 하는 HTML 데이터의 형식을 명확히 했으므로 크롤러 프로그램 작성을 시작할 수 있습니다.

코드 작성🎜🎜우리는 PHP 크롤러 코드를 세 단계로 나누었습니다: 🎜🎜🎜Baidu 검색 결과의 HTML 페이지 가져오기 🎜🎜HTML 페이지 구문 분석 🎜🎜파싱된 데이터를 배열 형식으로 반환🎜🎜🎜Baidu 가져오기 검색 결과의 HTML 페이지🎜🎜Baidu 검색 결과의 HTML 페이지를 얻기 위해 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 보낼 수 있습니다. 이 예에서는 검색 페이지의 URL을 $url 변수에 저장합니다. 그런 다음 cURL 핸들을 생성하고 URL 설정, 요청 헤더 설정, 프록시 설정, 시간 초과 설정, 요청 방법을 GET으로 설정하고 마지막으로 이 핸들을 실행하여 HTML 페이지를 얻는 등 다양한 옵션을 설정합니다. 🎜rrreee🎜이 예에서는 cURL 라이브러리에서 제공하는 많은 옵션을 사용합니다. 예를 들어, 브라우저에서 보낸 HTTP 요청을 시뮬레이션하도록 요청 헤더를 설정하고, 요청 방법을 GET으로 설정하고, 시간 초과를 설정하는 등의 작업을 수행합니다. 🎜🎜HTML 페이지 구문 분석🎜🎜Baidu 검색 결과의 HTML 페이지를 가져온 후 이를 구문 분석하여 필요한 정보를 얻어야 합니다. 이 예에서는 PHP의 정규 표현식을 사용하여 HTML 페이지를 구문 분석합니다. 🎜🎜다음은 HTML 페이지에서 제목, 설명, 링크를 추출하는 데 사용하는 정규식입니다. 🎜rrreee🎜위 코드에서는 PHP의 정규식을 사용하여 모든 검색 결과를 일치시킵니다. 그런 다음 루프를 사용하여 모든 검색 결과를 살펴보고 필요한 제목, 설명 및 링크를 추출합니다. HTML에서 가져온 제목과 설명에는 HTML 태그가 포함되므로 strip_tags 함수를 사용하여 이를 제거합니다. 🎜🎜결과 반환🎜🎜위 코드에서 필요한 데이터를 얻었으므로 이제 결과를 배열 형식으로 반환하기만 하면 됩니다. 우리는 전체 크롤러 프로그램을 함수로 캡슐화하고 얻은 데이터를 배열 형식으로 반환합니다. 🎜rrreee🎜 키워드를 매개변수로 받은 다음 이 함수를 호출하여 Baidu 검색결과 제목, 설명에서 키워드를 가져올 수 있습니다. 그리고 링크. 🎜

결론

이 기사에서는 Baidu 검색 결과에서 필요한 데이터를 추출하기 위해 PHP를 사용하여 간단한 크롤러 프로그램을 작성했습니다. 이 프로그램은 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 시뮬레이션하고 정규식과 같은 방법을 사용하여 HTML 페이지를 구문 분석합니다. 이 예를 통해 크롤러의 작동 방식과 PHP를 사용하여 크롤러를 작성하는 방법을 심층적으로 이해할 수 있습니다. 실제 프로젝트에서는 필요한 데이터를 얻기 위해 필요에 따라 이 프로그램을 수정할 수 있습니다.

위 내용은 PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.