PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출-PHP 튜토리얼-php.cn

집

백엔드 개발

PHP 튜토리얼

PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출

PHPz

Jun 13, 2023 am 10:22 AM

php비열한데이터 추출

인터넷의 급속한 발전으로 정보 폭발 시대가 도래했습니다. 이런 시대에 검색엔진은 우리가 정보를 얻는 주요 도구가 되었고, 검색엔진이 제공하는 방대한 양의 데이터는 우리의 상상을 초월합니다. 그러나 일부 특정 분야의 연구자나 데이터 분석가에게 필요한 정보는 검색 결과에 포함된 데이터의 극히 일부일 수 있습니다. 이 경우 우리가 원하는 데이터를 정확히 얻으려면 크롤러를 사용해야 합니다.

이 기사에서는 PHP를 사용하여 Baidu 검색 결과에서 필요한 데이터를 추출하는 간단한 크롤러 프로그램을 작성하겠습니다. 이 프로그램의 핵심은 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 시뮬레이션한 다음 정규식 및 기타 방법을 사용하여 HTML 페이지를 구문 분석하는 것입니다.

Idea

크롤러 프로그램 작성을 시작하기 전에 몇 가지 질문을 명확히 해야 합니다.

목표: Baidu 검색 결과 페이지에서 크롤링하려는 데이터는 무엇입니까?
URL: 데이터를 얻으려면 어떤 URL이 필요합니까?
데이터 형식: Baidu 검색 결과 페이지의 데이터 형식은 무엇입니까?

어떤 데이터를 얻어야 하는지 고려할 때 "PHP 크롤러"라는 키워드를 예로 들어보겠습니다. 이 키워드를 바이두에서 검색하면 다음과 같은 정보를 볼 수 있습니다.

총 검색결과 수
각 검색결과 제목
각 검색결과 설명
각 검색결과 URL

그러면 우리는 Baidu 검색 결과에서 각 결과의 제목, 설명 및 URL을 추출하는 것으로 목표를 정의할 수 있습니다.

데이터를 얻는 첫 번째 단계는 얻고자 하는 URL을 명확히 하는 것입니다. 이 예에서 우리가 얻어야 하는 URL은 https://www.baidu.com/s?wd=php%20crawler입니다. Baidu 검색창에 "php 크롤러"를 입력하면 자동으로 이 URL로 이동할 수 있습니다. https://www.baidu.com/s?wd=php%20爬虫。通过在百度搜索栏中输入“php 爬虫”，我们可以自动跳转到这个 URL。

接着，我们需要了解我们将要解析的数据的格式。在我们的例子中，搜索结果以类似下面的 HTML 代码的形式存在：

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&rsp=1&f=8&ie=utf-8&tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&wd=&eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>，<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&
            wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

在以上 HTML 代码片段中，可以看到每个搜索结果都嵌套在 <div class="result c-container "> 标签内。每个搜索结果都有一个标题，对应的 HTML 格式为 <code><h3 class="t"></h3>，其中链接地址嵌套在 <a></a> 标签内。每个搜索结果都有一个描述，对应的 HTML 格式为

。每个搜索结果还有一个网址，在 <a></a> 标签内含有 class="c-showurl"。现在我们已经明确了我们要获取到的数据的格式及我们需要解析的 HTML 数据的格式，我们已经可以开始编写我们的爬虫程序了。
编写代码
我们将我们的 PHP 爬虫代码分成了三个步骤：

获取百度搜索结果的 HTML 页面
解析 HTML 页面
将解析后的数据以数组形式返回

获取百度搜索结果的 HTML 页面
我们可以使用 PHP 的 cURL 库发送 HTTP 请求，从而获取百度搜索结果的 HTML 页面。在这个例子中，我们将搜索页面的 URL 存在 $url 变量中。然后创建一个 cURL 的句柄，并设置许多选项，例如：设置 URL、设置请求头、设置代理、设置超时、设置请求方式为 GET，最后执行这个句柄，获取 HTML 页面。
<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);
在这个例子中，我们使用了 cURL 库提供的许多选项。例如，设置请求头来模拟浏览器发送的 HTTP 请求，设置请求方式为 GET，设置超时时间，等等。
解析 HTML 页面
在获取了百度搜索结果的 HTML 页面之后，我们需要解析它来获取我们需要的信息。在这个例子中，我们将使用 PHP 的正则表达式来解析 HTML 页面。
以下是我们使用正则表达式来从 HTML 页面中提取标题、描述和链接：
<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);
在以上代码中，我们使用了 PHP 的正则表达式来匹配所有的搜索结果。然后，我们使用一个循环来遍历所有的搜索结果，从中提取出我们需要的标题、描述和链接。由于我们从 HTML 中获取到的标题和描述中会含有 HTML 标签，我们使用 strip_tags
다음으로, 파싱할 데이터의 형식을 이해해야 합니다. 우리의 경우 검색 결과는 다음과 유사한 HTML 코드 형식으로 존재합니다. <?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}
위의 HTML 코드 스니펫에서 각 검색 결과가 <div class="result 내에 중첩되어 있음을 알 수 있습니다. c -container "> 태그. 각 검색결과에는 제목이 있으며 해당 HTML 형식은 <code><h3 class="t"></h3>입니다. 여기서 링크 주소는 <a></a>에 중첩되어 있습니다. 태그 내부. 각 검색 결과에는 HTML 형식 의 설명이 있습니다. 각 검색결과에는 <a></a> 태그 내에 class="c-showurl"이 포함된 URL도 있습니다. 
이제 우리가 얻고자 하는 데이터의 형식과 구문 분석해야 하는 HTML 데이터의 형식을 명확히 했으므로 크롤러 프로그램 작성을 시작할 수 있습니다. 
코드 작성🎜🎜우리는 PHP 크롤러 코드를 세 단계로 나누었습니다: 🎜🎜🎜Baidu 검색 결과의 HTML 페이지 가져오기 🎜🎜HTML 페이지 구문 분석 🎜🎜파싱된 데이터를 배열 형식으로 반환🎜🎜🎜Baidu 가져오기 검색 결과의 HTML 페이지🎜🎜Baidu 검색 결과의 HTML 페이지를 얻기 위해 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 보낼 수 있습니다. 이 예에서는 검색 페이지의 URL을 $url 변수에 저장합니다. 그런 다음 cURL 핸들을 생성하고 URL 설정, 요청 헤더 설정, 프록시 설정, 시간 초과 설정, 요청 방법을 GET으로 설정하고 마지막으로 이 핸들을 실행하여 HTML 페이지를 얻는 등 다양한 옵션을 설정합니다. 🎜rrreee🎜이 예에서는 cURL 라이브러리에서 제공하는 많은 옵션을 사용합니다. 예를 들어, 브라우저에서 보낸 HTTP 요청을 시뮬레이션하도록 요청 헤더를 설정하고, 요청 방법을 GET으로 설정하고, 시간 초과를 설정하는 등의 작업을 수행합니다. 🎜🎜HTML 페이지 구문 분석🎜🎜Baidu 검색 결과의 HTML 페이지를 가져온 후 이를 구문 분석하여 필요한 정보를 얻어야 합니다. 이 예에서는 PHP의 정규 표현식을 사용하여 HTML 페이지를 구문 분석합니다. 🎜🎜다음은 HTML 페이지에서 제목, 설명, 링크를 추출하는 데 사용하는 정규식입니다. 🎜rrreee🎜위 코드에서는 PHP의 정규식을 사용하여 모든 검색 결과를 일치시킵니다. 그런 다음 루프를 사용하여 모든 검색 결과를 살펴보고 필요한 제목, 설명 및 링크를 추출합니다. HTML에서 가져온 제목과 설명에는 HTML 태그가 포함되므로 strip_tags 함수를 사용하여 이를 제거합니다. 🎜🎜결과 반환🎜🎜위 코드에서 필요한 데이터를 얻었으므로 이제 결과를 배열 형식으로 반환하기만 하면 됩니다. 우리는 전체 크롤러 프로그램을 함수로 캡슐화하고 얻은 데이터를 배열 형식으로 반환합니다. 🎜rrreee🎜 키워드를 매개변수로 받은 다음 이 함수를 호출하여 Baidu 검색결과 제목, 설명에서 키워드를 가져올 수 있습니다. 그리고 링크. 🎜결론
이 기사에서는 Baidu 검색 결과에서 필요한 데이터를 추출하기 위해 PHP를 사용하여 간단한 크롤러 프로그램을 작성했습니다. 이 프로그램은 PHP의 cURL 라이브러리를 사용하여 HTTP 요청을 시뮬레이션하고 정규식과 같은 방법을 사용하여 HTML 페이지를 구문 분석합니다. 이 예를 통해 크롤러의 작동 방식과 PHP를 사용하여 크롤러를 작성하는 방법을 심층적으로 이해할 수 있습니다. 실제 프로젝트에서는 필요한 데이터를 얻기 위해 필요에 따라 이 프로그램을 수정할 수 있습니다.

위 내용은 PHP 크롤러 연습: Baidu 검색 결과에서 필요한 데이터 추출의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

PHP와 Python : 다른 패러다임이 설명되었습니다Apr 18, 2025 am 12:26 AM

PHP는 주로 절차 적 프로그래밍이지만 객체 지향 프로그래밍 (OOP)도 지원합니다. Python은 OOP, 기능 및 절차 프로그래밍을 포함한 다양한 패러다임을 지원합니다. PHP는 웹 개발에 적합하며 Python은 데이터 분석 및 기계 학습과 같은 다양한 응용 프로그램에 적합합니다.

PHP와 Python : 그들의 역사에 깊은 다이빙Apr 18, 2025 am 12:25 AM

PHP는 1994 년에 시작되었으며 Rasmuslerdorf에 의해 개발되었습니다. 원래 웹 사이트 방문자를 추적하는 데 사용되었으며 점차 서버 측 스크립팅 언어로 진화했으며 웹 개발에 널리 사용되었습니다. Python은 1980 년대 후반 Guidovan Rossum에 의해 개발되었으며 1991 년에 처음 출시되었습니다. 코드 가독성과 단순성을 강조하며 과학 컴퓨팅, 데이터 분석 및 기타 분야에 적합합니다.

PHP와 Python 중에서 선택 : 가이드Apr 18, 2025 am 12:24 AM

PHP는 웹 개발 및 빠른 프로토 타이핑에 적합하며 Python은 데이터 과학 및 기계 학습에 적합합니다. 1.PHP는 간단한 구문과 함께 동적 웹 개발에 사용되며 빠른 개발에 적합합니다. 2. Python은 간결한 구문을 가지고 있으며 여러 분야에 적합하며 강력한 라이브러리 생태계가 있습니다.

PHP 및 프레임 워크 : 언어 현대화Apr 18, 2025 am 12:14 AM

PHP는 현대화 프로세스에서 많은 웹 사이트 및 응용 프로그램을 지원하고 프레임 워크를 통해 개발 요구에 적응하기 때문에 여전히 중요합니다. 1.PHP7은 성능을 향상시키고 새로운 기능을 소개합니다. 2. Laravel, Symfony 및 Codeigniter와 같은 현대 프레임 워크는 개발을 단순화하고 코드 품질을 향상시킵니다. 3. 성능 최적화 및 모범 사례는 응용 프로그램 효율성을 더욱 향상시킵니다.

PHP의 영향 : 웹 개발 및 그 이상Apr 18, 2025 am 12:10 AM

phphassignificallyimpactedwebdevelopmentandextendsbeyondit

스칼라 유형, 반환 유형, 노조 유형 및 무효 유형을 포함한 PHP 유형의 힌트 작업은 어떻게 작동합니까?Apr 17, 2025 am 12:25 AM

PHP 유형은 코드 품질과 가독성을 향상시키기위한 프롬프트입니다. 1) 스칼라 유형 팁 : PHP7.0이므로 int, float 등과 같은 기능 매개 변수에 기본 데이터 유형을 지정할 수 있습니다. 2) 반환 유형 프롬프트 : 기능 반환 값 유형의 일관성을 확인하십시오. 3) Union 유형 프롬프트 : PHP8.0이므로 기능 매개 변수 또는 반환 값에 여러 유형을 지정할 수 있습니다. 4) Nullable 유형 프롬프트 : NULL 값을 포함하고 널 값을 반환 할 수있는 기능을 포함 할 수 있습니다.

PHP는 객체 클로닝 (클론 키워드) 및 __clone 마법 방법을 어떻게 처리합니까?Apr 17, 2025 am 12:24 AM

PHP에서는 클론 키워드를 사용하여 객체 사본을 만들고 \ _ \ _ Clone Magic 메소드를 통해 클로닝 동작을 사용자 정의하십시오. 1. 복제 키워드를 사용하여 얕은 사본을 만들어 객체의 속성을 복제하지만 객체의 속성은 아닙니다. 2. \ _ \ _ 클론 방법은 얕은 복사 문제를 피하기 위해 중첩 된 물체를 깊이 복사 할 수 있습니다. 3. 복제의 순환 참조 및 성능 문제를 피하고 클로닝 작업을 최적화하여 효율성을 향상시키기 위해주의를 기울이십시오.

PHP vs. Python : 사용 사례 및 응용 프로그램Apr 17, 2025 am 12:23 AM

PHP는 웹 개발 및 컨텐츠 관리 시스템에 적합하며 Python은 데이터 과학, 기계 학습 및 자동화 스크립트에 적합합니다. 1.PHP는 빠르고 확장 가능한 웹 사이트 및 응용 프로그램을 구축하는 데 잘 작동하며 WordPress와 같은 CMS에서 일반적으로 사용됩니다. 2. Python은 Numpy 및 Tensorflow와 같은 풍부한 라이브러리를 통해 데이터 과학 및 기계 학습 분야에서 뛰어난 공연을했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

드림위버 CS6

시각적 웹 개발 도구

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는