ホームページ >バックエンド開発 >PHPチュートリアル >PHP で Web クローリングとデータスクレイピングを実行するにはどうすればよいですか?

PHP で Web クローリングとデータスクレイピングを実行するにはどうすればよいですか?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2023-05-20 21:51:271116ブラウズ

インターネット時代の到来により、ネットワークデータをクローリングして取得することが多くの人々にとって日常的な仕事になりました。 Web 開発をサポートするプログラミング言語の中でも、PHP はそのスケーラビリティと使いやすさにより、Web クローラーやデータスクレイピングに人気の選択肢となっています。この記事では、PHP で Web クローリングとデータスクレイピングを行う方法を次の観点から紹介します。

1. HTTP プロトコルとリクエストの実装

Web クローリングとデータクローリングを実行する前に、HTTP プロトコルとリクエストの実装についてある程度理解しておく必要があります。 HTTP プロトコルはリクエスト/レスポンスモデルに基づいており、Web ページをクロールするプロセスはリクエストをシミュレートし、レスポンスを取得するプロセスです。 PHP では、curl ライブラリを使用して HTTP リクエストを実装できます。 curl を使用してセッションを初期化し、リクエストパラメーターを設定してリクエストを送信し、応答情報を取得します。以下は簡単な例です。

$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'https://example.com');
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
$response = curl_exec($ch);
curl_close($ch);

このコードは、curl を使用して URL 'https://example.com' への GET リクエストを実装し、応答コンテンツを返します。このうち、CURLOPT_URL がリクエストされた URL で、CURLOPT_RETURTRANSFER が true に設定されているため、curl_exec() 関数は応答内容を直接出力せずに返します。

2. HTML 解析

Web ページの応答コンテンツを取得した後、HTML を解析して目的の情報を抽出する必要があります。 PHP では、Symfony の DomCrawler や Goutte などのサードパーティライブラリを使用して HTML を解析できます。以下は、DomCrawler を使用して HTML を解析する簡単な例です。

use SymfonyComponentDomCrawlerCrawler;

$html = '<html><title>example</title><body><div class="post"><h2>Test</h2><p>Content</p></div></body></html>';
$crawler = new Crawler($html);
$title = $crawler->filter('title')->text();
$content = $crawler->filter('.post p')->text();

このコードでは、まず DomCrawler ライブラリをインストールしてインポートし、次に $html 文字列を使用して Crawler オブジェクトを初期化する必要があります。次に、指定された HTML 要素を filter() メソッドで抽出し、text() メソッドでプレーンテキストに変換します。

3. 正規表現

PHP では、正規表現を使用して HTML テキストを操作することもできます。正規表現は、テキスト内の特定の文字、単語、またはパターンと一致するパターンを定義する汎用のテキストマッチングツールです。以下は簡単な例です:

$html = '<html><title>example</title><body><div class="post"><h2>Test</h2><p>Content</p></div></body></html>';
preg_match('/<title>(.*)</title>/', $html, $matches);
$title = $matches[1];
preg_match('/<div class="post">(.*)</div>/', $html, $matches);
$content = $matches[1];

このコードは preg_match() 関数を使用して HTML 内のタイトルとコンテンツを照合し、定義された正規表現を通じてターゲットコンテンツを抽出します。あいまいな一致や偶発的な一致を避けるために、正規表現はできるだけ正確である必要があることに注意してください。

4. データベース操作

データクロールでは通常、後続の分析と使用のためにクロールされたデータを保存する必要があります。 PHP では、データストレージに MySQL などの複数のデータベースを使用できます。以下は、簡単な MySQL データベース操作の例です:

$conn = mysqli_connect("localhost", "user", "password", "example");
if (!$conn) {
    die("Connection failed: " . mysqli_connect_error());
}
$sql = "INSERT INTO posts (title, content) VALUES ('$title', '$content')";
if (mysqli_query($conn, $sql)) {
    echo "New record created successfully";
} else {
    echo "Error: " . $sql . "<br>" . mysqli_error($conn);
}
mysqli_close($conn);

このコードは、mysqli_connect() 関数を使用して MySQL データベースに接続し、次に mysqli_query() 関数を使用してタイトルとコンテンツを挿入する挿入操作を実行します。投稿テーブルに追加します。なお、この方法はSQLインジェクションなどのデータセキュリティの問題があり、プリペアドステートメントなどのセキュリティ対策も考慮する必要があります。

概要

上記の導入を通じて、HTTP プロトコルとリクエストの実装、HTML 解析、正規表現、データベース操作など、PHP での Web クローリングとデータ取得の基本的な方法を理解できます。、など。実際の応用においては、Webページの構造や対象データの特性に応じて、適切な実装方法を柔軟に選択することも必要です。これらの方法を利用すれば、より効率的にデータをクロールしてスクレイピングできるようになると思います。

以上がPHP で Web クローリングとデータスクレイピングを実行するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：PHP でデータのクロールとクロール後の処理を実行するにはどうすればよいですか?次の記事：PHP でデータのクロールとクロール後の処理を実行するにはどうすればよいですか?

続きを見る

PHP で Web クローリングとデータ スクレイピングを実行するにはどうすればよいですか?

関連記事

PHP で Web クローリングとデータスクレイピングを実行するにはどうすればよいですか?