PHP クローラーの実践: Baidu の検索結果から必要なデータを抽出する-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP クローラーの実践: Baidu の検索結果から必要なデータを抽出する

PHPz

Jun 13, 2023 am 10:22 AM

php爬虫類データ抽出

インターネットの急速な発展により、情報爆発の時代が到来しました。このような時代において、検索エンジンは私たちが情報を取得するための主要なツールとなり、検索エンジンから得られる膨大なデータは私たちの想像を超えています。ただし、特定の分野の研究者やデータアナリストにとって、必要な情報はこれらの検索結果のデータのほんの一部である可能性があります。この場合、必要なデータを正確に取得するにはクローラーを使用する必要があります。

この記事では、PHP を使用して、Baidu の検索結果から必要なデータを抽出する簡単なクローラープログラムを作成します。このプログラムの核心は、PHP の cURL ライブラリを使用して HTTP リクエストをシミュレートし、正規表現やその他のメソッドを使用して HTML ページを解析することです。

アイデア

クローラープログラムの作成を開始する前に、いくつかの質問を明確にする必要があります。

目標: Baidu の検索結果ページからクロールする必要があります。どのようなデータですか？
URL: データを取得するにはどの URL が必要ですか?
データ形式: Baidu の検索結果ページのデータの形式は何ですか?

どのようなデータを取得する必要があるかを考えるとき、キーワード「PHP クローラー」を例に考えてみましょう。このキーワードを Baidu で検索すると、次の情報が表示されます。

検索結果の総数
#各検索結果のタイトル
各検索結果の説明検索結果
各検索結果の URL

次に、Baidu の検索結果、説明、URL から各結果のタイトルを抽出することを目標として定義できます。

データを取得するための最初のステップは、取得したい URL を明確にすることです。この例では、取得する必要がある URL は次のとおりです: https://www.baidu.com/s?wd=php クローラー。 Baidu の検索バーに「php クローラー」と入力すると、この URL に自動的にジャンプできます。

次に、解析するデータの形式を理解する必要があります。この場合、検索結果は次のような HTML コードの形式で存在します。

<div class="result c-container ">
    <h3 class="t">
        <a href="http://www.example.com/" target="_blank" class="c-showurl">
            www.example.com
        </a>
        <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院
    </h3>
    <div class="c-abstract">
        <span class=" newTimeFactor_before_abs">2天前 - </span>
        <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a
            href="https://www.baidu.com/s?wd=python%20爬虫&rsp=1&f=8&ie=utf-8&tn=95754739_hao_pg"
            target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&wd=&eqid=f774f5d00003a46c000000065f51fc9a"
            target="_blank" class="text-underline">PHP</a>，<a
            href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns
            isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&
            wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank"
            class="text-underline">PHP</a> 一般用作...
    </div>
</div>

上記の HTML コードスニペットでは、各検索結果が <div class="result c-container "> タグ内に記述します。各検索結果には、HTML 形式 <code><h3 class="t"></h3> に対応するタイトルがあり、リンクアドレスは <a></a> タグ内にネストされます。各検索結果には、HTML 形式

 に対応する説明が付いています。各検索結果には、<a></a> タグ内に class="c-showurl" を含む URL も含まれています。 取得したいデータの形式と解析する必要がある HTML データの形式が明確になったので、クローラー プログラムの作成を開始できます。 
コードの記述
PHP クローラー コードを 3 つのステップに分割しました: 

Baidu 検索結果の HTML ページを取得する
分析 HTML ページ
解析されたデータを配列形式で返します

Baidu 検索結果の HTML ページを取得します
PHP の cURL ライブラリを使用して HTTP リクエストを送信できます。 Baidu の検索結果の HTML ページを取得します。この例では、検索ページの URL を $url 変数に保存します。次に、cURL ハンドルを作成し、URL の設定、リクエスト ヘッダーの設定、プロキシの設定、タイムアウトの設定、リクエスト メソッドの GET への設定などの多くのオプションを設定し、最後にこのハンドルを実行して HTML ページを取得します。 
<?php

$url = "https://www.baidu.com/s?wd=php%20爬虫";

// 创建curl句柄
$ch = curl_init();

// 设置curl选项
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
curl_setopt($ch, CURLOPT_HEADER, true);
curl_setopt(
    $ch,
    CURLOPT_HTTPHEADER,
    [
        'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
        'Referer: https://www.baidu.com/',
        'Connection: keep-alive',
    ]
);
curl_setopt($ch, CURLOPT_TIMEOUT, 30);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

//执行curl句柄
$result = curl_exec($ch);
この例では、cURL ライブラリによって提供されるオプションの多くを使用します。たとえば、ブラウザによって送信される HTTP リクエストをシミュレートするリクエスト ヘッダーを設定したり、リクエスト メソッドを GET に設定したり、タイムアウトを設定したりできます。 
HTML ページの解析
Baidu 検索結果の HTML ページを取得した後、それを解析して必要な情報を取得する必要があります。この例では、PHP の正規表現を使用して HTML ページを解析します。 
次は、HTML ページからタイトル、説明、リンクを抽出するために使用する正規表現です: 
<?php

$result = curl_exec($ch);

// 匹配所有搜索结果
preg_match_all(
    '/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
    $result,
    $matches
);

// 提取搜索结果中的标题、描述和链接
$data = [];
for ($i=0; $i<count($matches[0]); $i++) {
    $data[] = [
        'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签
        'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签
        'link' => $matches[1][$i]
    ];
};

// 关闭curl句柄
curl_close($ch);
上記のコードでは、PHP の正規表現を使用してすべての検索結果と一致します。次に、ループを使用してすべての検索結果を調べ、必要なタイトル、説明、リンクを抽出します。 HTML から取得したタイトルと説明には HTML タグが含まれるため、strip_tags 関数を使用してそれらを削除します。 
結果を返す
上記のコードでは、必要なデータを取得しました。後は結果を配列の形式で返すだけです。クローラー プログラム全体を関数にカプセル化し、取得したデータを配列の形式で返します。 
<?php

function spider_baidu($keyword) {
    $url = "https://www.baidu.com/s?wd=" . urlencode($keyword);

    $ch = curl_init();

    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
    curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate');
    curl_setopt($ch, CURLOPT_HEADER, true);
    curl_setopt(
        $ch,
        CURLOPT_HTTPHEADER,
        [
            'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36',
            'Referer: https://www.baidu.com/',
            'Connection: keep-alive',
        ]
    );
    curl_setopt($ch, CURLOPT_TIMEOUT, 30);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
    curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET");

    $result = curl_exec($ch);

    preg_match_all(
        '/<div.*?class="result.*?">.*?<h3 id="a-href-s-s-a">.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/',
        $result,
        $matches
    );

    $data = [];
    for ($i=0; $i<count($matches[0]); $i++) {
        $data[] = [
            'title' => strip_tags($matches[2][$i]),
            'description' => strip_tags($matches[3][$i]),
            'link' => $matches[1][$i]
        ];
    };

    curl_close($ch);

    return $data;
}
キーワードをパラメーターとして受け取り、この関数を呼び出してタイトルのキーワードを取得できます。 Baidu の検索結果の説明とリンク。 
結論
この記事では、PHP を使用して、Baidu の検索結果から必要なデータを抽出する簡単なクローラー プログラムを作成しました。このプログラムは、PHP の cURL ライブラリを使用して HTTP リクエストをシミュレートし、正規表現などのメソッドを使用して HTML ページを解析します。この例を通じて、クローラーがどのように動作するか、および PHP を使用してクローラーを作成する方法を深く理解できます。実際のプロジェクトでは、必要に応じてこのプログラムを変更して、必要なデータを取得できます。

以上がPHP クローラーの実践: Baidu の検索結果から必要なデータを抽出するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

PHPはユーザーのセッションをどのように識別しますか？May 01, 2025 am 12:23 AM

phpidentifiesauser'ssessionsingsinssessionCookiesIds.1）whensession_start（）iscalled、phpgeneratesauniquesidstoredsored incoookienadphpsessidontheuser'sbrowser.2）thisidallowsphptortorieSessiondatadata fromthata

PHPセッションを保護するためのベストプラクティスは何ですか？May 01, 2025 am 12:22 AM

PHPセッションのセキュリティは、次の測定を通じて達成できます。1。session_regenerate_id（）を使用して、ユーザーがログインまたは重要な操作である場合にセッションIDを再生します。 2. HTTPSプロトコルを介して送信セッションIDを暗号化します。 3。Session_Save_Path（）を使用して、セッションデータを保存し、権限を正しく設定するためのSecure Directoryを指定します。

PHPセッションファイルはデフォルトで保存されていますか？May 01, 2025 am 12:15 AM

phpsessionFilesToredInthededirectoryspecifiedBysession.save_path、通常/tmponunix-likesystemsorc：\ windows \ temponwindows.tocustomizethis：1）uesession_save_path（）tosetaCustomdirectory、ensuringit'swritadistradistradistradistradistra

PHPセッションからデータをどのように取得しますか？May 01, 2025 am 12:11 AM

toretrievedatafrompsession、Startthessession withsession_start（）andAccessvariablesshe $ _SessionArray.forexample：1）Startthessession：session_start（）

セッションを使用してショッピングカートを実装するにはどうすればよいですか？May 01, 2025 am 12:10 AM

セッションを使用して効率的なショッピングカートシステムを構築する手順には、次のものがあります。1）セッションの定義と機能を理解します。セッションは、リクエスト全体でユーザーのステータスを維持するために使用されるサーバー側のストレージメカニズムです。 2）ショッピングカートに製品を追加するなど、基本的なセッション管理を実装します。 3）製品の量管理と削除をサポートし、高度な使用状況に拡大します。 4）セッションデータを持続し、安全なセッション識別子を使用することにより、パフォーマンスとセキュリティを最適化します。

PHPでインターフェイスをどのように作成して使用しますか？Apr 30, 2025 pm 03:40 PM

この記事では、PHPでインターフェイスを作成、実装、および使用する方法について説明し、コード組織と保守性の利点に焦点を当てています。

crypt（）とpassword_hash（）の違いは何ですか？Apr 30, 2025 pm 03:39 PM

この記事では、PHPのCrypt（）とpassword_hash（）の違いについて、パスワードハッシュの違いについて説明し、最新のWebアプリケーションの実装、セキュリティ、および適合性に焦点を当てています。

PHPのクロスサイトスクリプト（XSS）をどのように防ぐことができますか？Apr 30, 2025 pm 03:38 PM

記事では、入力検証、出力エンコード、およびOWASP ESAPIやHTML浄化器などのツールを使用して、PHPのクロスサイトスクリプト（XSS）を防止します。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。