PHP Linux スクリプト プログラミングの実践: Web クローラーを実装するには、特定のコード サンプルが必要です。
はじめに:
1. Web クローラーとは何ですか?
2. 準備
sudo apt update sudo apt install php php-curlインストールが完了したら、例としてターゲット Web サイトも必要になります。例として、Wikipedia の「コンピューター サイエンス」ページを見てみましょう。 3. 開発プロセス
次のコードを含む
crawler.php<?php // 定义目标URL $url = "https://en.wikipedia.org/wiki/Computer_science"; // 创建cURL资源 $ch = curl_init(); // 设置cURL参数 curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); // 获取网页源代码 $html = curl_exec($ch); // 关闭cURL资源 curl_close($ch); // 解析网页源代码 $dom = new DOMDocument(); @$dom->loadHTML($html); // 获取所有标题 $headings = $dom->getElementsByTagName("h2"); foreach ($headings as $heading) { echo $heading->nodeValue . " "; } ?>
php crawler.php
Contents History[edit] Terminology[edit] Areas of computer science[edit] Subfields[edit] Relation to other fields[edit] See also[edit] Notes[edit] References[edit] External links[edit]これらのタイトルはターゲット ページの一部です。 PHP スクリプトを使用して、Wikipedia のコンピューター サイエンス ページのタイトル情報を取得することに成功しました。
4. 概要
以上がPHP Linux スクリプト プログラミングの実践: Web クローラーの実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。