検索
ホームページバックエンド開発PHPチュートリアルDOM 操作を使用して、複数のリンクを持つ Web ページからデータを抽出する堅牢な PHP クローラーを構築するにはどうすればよいですか?

How can I build a robust PHP crawler using DOM manipulation for extracting data from web pages with multiple links?

PHP によるクロール: 総合ガイド

複数のリンクを含む Web ページからデータを抽出するために、PHP ではさまざまな可能性が提供されています。 1 つのアプローチには正規表現の利用が含まれますが、HTML 解析に正規表現のみに依存しないようにすることが重要です。

DOM ベースのクローラーの実装

Tatu の DOM ベースのクローラーは、信頼できる代替品。改善されたバージョンは次のとおりです。

function crawl_page($url, $depth = 5)
{
    static $seen = array();
    if (isset($seen[$url]) || $depth === 0) {
        return;
    }

    $seen[$url] = true;

    $dom = new DOMDocument('1.0');
    @$dom->loadHTMLFile($url);

    $anchors = $dom->getElementsByTagName('a');
    foreach ($anchors as $element) {
        $path = $element->getAttribute('href');
        if (0 !== strpos($path, 'http')) {
            $path = '/' . ltrim($path, '/');
            if (extension_loaded('http')) {
                $href = http_build_url($url, array('path' => $path));
            } else {
                $parts = parse_url($url);
                $href = $parts['scheme'] . '://';
                if (isset($parts['user']) && isset($parts['pass'])) {
                    $href .= $parts['user'] . ':' . $parts['pass'] . '@';
                }
                $href .= $parts['host'];
                if (isset($parts['port'])) {
                    $href .= ':' . $parts['port'];
                }
                $href .= dirname($parts['path'], 1).$path;
            }
        }
        crawl_page($href, $depth - 1);
    }
    echo "URL:", $url, PHP_EOL, "CONTENT:", PHP_EOL, $dom->saveHTML(), PHP_EOL, PHP_EOL;
}

この改善されたバージョンでは、https、ユーザー、パス、ポートなどのさまざまな URL シナリオが考慮されています。

機能強化

George は、URL パスを上書きするのではなく相対 URL を末尾に追加するオリジナル バージョンのバグを指摘しました。その結果、この問題は解決され、相対 URL が期待どおりに動作するようになりました。

出力の保存

クローラーの修正バージョンは出力を STDOUT にエコーするため、次のことが可能になります。

これらの機能強化を組み込むことで、この DOM ベースのクローラーは、PHP の複数のリンクを持つ Web ページからデータを抽出するための堅牢なソリューションを提供します。

以上がDOM 操作を使用して、複数のリンクを持つ Web ページからデータを抽出する堅牢な PHP クローラーを構築するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHPでの依存関係注射:一般的な落とし穴の回避PHPでの依存関係注射:一般的な落とし穴の回避May 16, 2025 am 12:17 AM

依存関係の指示(di)inphpenhancesscodeflexibility andtestability bydecouplingdepensitycreation fromusage.toemplementdiefectivilly:1)sudiconticainersichyloiavoidovedovedineriering.2)回避装置の回避装置loadbylimitingdencedentotheeorfour.3)adhe

PHP Webサイトをスピードアップする方法:パフォーマンスチューニングPHP Webサイトをスピードアップする方法:パフォーマンスチューニングMay 16, 2025 am 12:12 AM

toimproveyourphpwebsite'sperformance、usethesestrategies:1)codecaching withop cachetospeedupscriptscriptintertention.2)最適化策を選択することを最適化してください

PHPで大量の電子メールを送信する:可能ですか?PHPで大量の電子メールを送信する:可能ですか?May 16, 2025 am 12:10 AM

はい、itispossibletosendmassemailswithphp.1)uselibrarieslikephpmailerorsforfienceemailsending.2)vetseemailstoavoidspamflags.3)emorizeemailsusingdynamicconttoimbroveengagemention.

PHPの依存噴射の目的は何ですか?PHPの依存噴射の目的は何ですか?May 16, 2025 am 12:10 AM

依存関係の指示(di)inphpisadesignpatterntativevevesion ofコントロール(IOC)は、依存性を依存していることによって、微分化された誘惑を依存させ、微分、テスト可能性、および柔軟性を高めることができます

PHPを使用して電子メールを送信する方法は?PHPを使用して電子メールを送信する方法は?May 16, 2025 am 12:03 AM

PHPを使用して電子メールを送信する最良の方法は次のとおりです。1。PHPのMail()関数を基本送信に使用します。 2。phpmailerライブラリを使用して、より複雑なHTMLメールを送信します。 3. SendGridなどのトランザクションメールサービスを使用して、信頼性と分析機能を改善します。これらの方法を使用すると、電子メールが受信トレイに届くだけでなく、受信者を引き付けることもできます。

PHP多次元アレイの要素の総数を計算する方法は?PHP多次元アレイの要素の総数を計算する方法は?May 15, 2025 pm 09:00 PM

PHP多次元アレイの要素の総数を計算することは、再帰的または反復的な方法を使用して行うことができます。 1.再帰的な方法は、アレイを通過し、ネストされた配列を再帰的に処理することによりカウントされます。 2。反復法は、スタックを使用して再帰をシミュレートして深さの問題を回避します。 3. array_walk_recursive関数も実装できますが、手動でカウントする必要があります。

PHPのDo-While Loopsの特徴は何ですか?PHPのDo-While Loopsの特徴は何ですか?May 15, 2025 pm 08:57 PM

PHPでは、ループの特性は、ループ本体が少なくとも1回実行されることを確認し、条件に基づいてループを続行するかどうかを決定することです。 1)条件付きチェックの前にループ本体を実行します。これは、ユーザー入力検証やメニューシステムなど、操作を少なくとも1回実行する必要があるシナリオに適しています。 2)ただし、do-whileループの構文は、初心者間の混乱を引き起こす可能性があり、不要なパフォーマンスオーバーヘッドを追加する可能性があります。

PHPで弦をハッシュする方法は?PHPで弦をハッシュする方法は?May 15, 2025 pm 08:54 PM

PHPの効率的なハッシュ文字列は、次の方法を使用できます。1。MD5関数を使用して高速ハッシュを使用しますが、パスワードストレージには適していません。 2。SHA256関数を使用して、セキュリティを改善します。 3. password_hash関数を使用してパスワードを処理して、最高のセキュリティと利便性を提供します。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい