検索
ホームページバックエンド開発PHPチュートリアルクローラーの開発と実装: PHP と Selenium の実践戦略

インターネットの発展に伴い、Web ページから取得するデータはますます増えており、Web ページを手動で閲覧して情報を読み取るのとは異なり、クローラー技術を使用すると自動的にデータを取得できます。クローラー テクノロジーにおける Selenium は、Web ページ上で操作するユーザーをシミュレートし、Web ページ上のデータを取得できる自動テスト ツールです。この記事では、PHPとSeleniumを使ってクローラー機能を実装する方法を紹介します。

セレンとは何ですか?

Selenium は、入力、クリック、スクロールなど、Web ページ上のすべてのユーザー操作をシミュレートし、Web ページ上のデータを取得できる自動テスト ツールです。 Selenium は、Chrome、Firefox、Edge などの複数のブラウザをサポートし、さまざまな言語を使用してテスト スクリプトを作成できます。クローラー テクノロジーでは、Selenium は Web ページを操作するユーザーをシミュレートし、Web ページからデータをクロールできます。

クローラ開発前の準備

クローラ開発に Selenium を使用する前に、Chrome のブラウザ ドライバなど、Selenium をサポートするブラウザ ドライバをインストールする必要があります。 Selenium 公式 Web サイトから Chrome ドライバーの最新バージョンをダウンロードしてインストールできます。

次に、PHP と関連拡張機能 (php-webdriver など) をローカルにインストールする必要があります。以下に示すように、Composer を使用してインストールできます。

composer require php-webdriver/webdriver

簡単な例: Web ページのタイトルを取得する

クローラ開発に Selenium を使用する最初のステップは、Web ページを開くことです。データをクロールする必要があります。 Web ページのタイトルを取得する必要があるとします。次の手順に従います。

<?php
require_once 'vendor/autoload.php';

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

// 启动Chrome浏览器
$capabilities = DesiredCapabilities::chrome();
$driver = RemoteWebDriver::create('http://localhost:9515', $capabilities);

// 打开需要抓取数据的网页
$driver->get('https://www.example.com');

// 获取网页标题
$title = $driver->getTitle();
echo $title;

// 关闭浏览器
$driver->quit();

コード分析:

  1. まず、require_once を使用して次のことを行います。必要なクラス ライブラリ ドキュメント。
  2. Use DesiredCapabilitiesブラウザ ドライバを作成し、Chrome ブラウザを指定します。
  3. RemoteWebDriver::createを使用します。Chrome ブラウザを起動し、Selenium サーバーに接続します。
  4. get メソッドを使用して、データをキャプチャする必要がある Web ページを開きます。
  5. getTitle メソッドを使用して、Web ページのタイトルを取得します。
  6. Webページのタイトルを出力します。
  7. 最後に、
  8. quit メソッドを使用して Chrome ブラウザを閉じます。
簡単な例: Web ページにログインしてデータをクロールする

実際のクローラー開発では、必要なデータを取得するために Web ページにログインする必要がある場合があります。以下は、Web サイトにログインしてデータを取得するためのサンプル コードです:

<?php
require_once 'vendor/autoload.php';

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookWebDriverWebDriverBy;

// 启动Chrome浏览器
$capabilities = DesiredCapabilities::chrome();
$driver = RemoteWebDriver::create('http://localhost:9515', $capabilities);

// 打开登录页面
$driver->get('https://www.example.com/login');

// 输入账号密码并登录
$accountInput = $driver->findElement(WebDriverBy::id('account'));
$passwordInput = $driver->findElement(WebDriverBy::id('password'));
$submitButton = $driver->findElement(WebDriverBy::id('submit'));
$accountInput->sendKeys('your_username');
$passwordInput->sendKeys('your_password');
$submitButton->click();

// 等待登录成功并打开需要抓取数据的页面
$driver->wait(10)->until(
    WebDriverExpectedCondition::titleContains('Homepage')
);
$driver->get('https://www.example.com/data');

// 获取数据
$data = $driver->findElement(WebDriverBy::cssSelector('.data'))->getText();
echo $data;

// 关闭浏览器
$driver->quit();

コード分析:

    まず、
  1. require_once を使用して、必要なクラス ライブラリを導入します。ファイル。
  2. Use
  3. DesiredCapabilitiesブラウザ ドライバを作成し、Chrome ブラウザを指定します。
  4. RemoteWebDriver::create
  5. を使用します。Chrome ブラウザを起動し、Selenium サーバーに接続します。
  6. get
  7. メソッドを使用して、ログインが必要なページを開きます。
  8. findElement
  9. メソッドを使用して、アカウントの入力要素の ID とパスワードを通じて対応する WebElement オブジェクトを取得し、sendKeys メソッドを呼び出してアカウントのパスワードを入力します。
  10. findElement
  11. メソッドを使用して、送信ボタンの ID を通じて対応する WebElement オブジェクトを取得し、click メソッドを呼び出してクリックしてログイン操作を完了します。
  12. wait
  13. メソッドを使用して、ページがジャンプした後のタイトルに Homepage が含まれるまで待機します。
  14. get
  15. メソッドを使用して、データをキャプチャする必要があるページを開きます。
  16. findElement
  17. メソッドを使用して、CSS セレクターを通じて対応する WebElement オブジェクトを取得し、getText メソッドを使用してテキスト コンテンツを取得します。 取得したデータを出力します。
  18. 最後に、
  19. quit
  20. メソッドを使用して Chrome ブラウザを閉じます。
  21. 上記はサンプルコードであり、実際の開発ではWebサイトのページ構造や要素IDに合わせて修正する必要があります。

概要

この記事では、クローラ開発に PHP と Selenium を使用する方法を紹介し、Web ページのタイトルの取得とデータをクロールするためのログインの 2 つの側面からのデモの例を示します。 Selenium は自動テスト ツールとして、Web ページ上でのユーザー操作をシミュレートし、Web ページ内のデータのキャプチャを容易にし、他の自動テスト シナリオでも使用できます。 Seleniumを使いこなすことで、技術レベルの向上と作業効率の向上を図ることができます。

以上がクローラーの開発と実装: PHP と Selenium の実践戦略の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHPおよびPython:さまざまなパラダイムが説明されていますPHPおよびPython:さまざまなパラダイムが説明されていますApr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPython:彼らの歴史を深く掘り下げますPHPとPython:彼らの歴史を深く掘り下げますApr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

PHPとPythonの選択:ガイドPHPとPythonの選択:ガイドApr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとフレームワーク:言語の近代化PHPとフレームワーク:言語の近代化Apr 18, 2025 am 12:14 AM

PHPは、多数のWebサイトとアプリケーションをサポートし、フレームワークを通じて開発ニーズに適応するため、近代化プロセスで依然として重要です。 1.PHP7はパフォーマンスを向上させ、新機能を紹介します。 2。Laravel、Symfony、Codeigniterなどの最新のフレームワークは、開発を簡素化し、コードの品質を向上させます。 3.パフォーマンスの最適化とベストプラクティスは、アプリケーションの効率をさらに改善します。

PHPの影響:Web開発などPHPの影響:Web開発などApr 18, 2025 am 12:10 AM

phphassiblasifly-impactedwebdevevermentandsbeyondit.1)itpowersmajorplatformslikewordpratsandexcelsindatabase interactions.2)php'sadaptableability allowsitale forlargeapplicationsusingframeworkslikelavel.3)

スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか?スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか?Apr 17, 2025 am 12:25 AM

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1)スカラータイプのヒント:php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3)ユニオンタイプのプロンプト:PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4)Nullable Typeプロンプト:null値を含めることができ、null値を返す可能性のある機能を処理できます。

PHPは、オブジェクトのクローニング(クローンキーワード)と__Clone Magicメソッドをどのように処理しますか?PHPは、オブジェクトのクローニング(クローンキーワード)と__Clone Magicメソッドをどのように処理しますか?Apr 17, 2025 am 12:24 AM

PHPでは、クローンキーワードを使用してオブジェクトのコピーを作成し、\ _ \ _クローンマジックメソッドを使用してクローン動作をカスタマイズします。 1.クローンキーワードを使用して浅いコピーを作成し、オブジェクトのプロパティをクローン化しますが、オブジェクトのプロパティはクローニングしません。 2。\ _ \ _クローン法は、浅いコピーの問題を避けるために、ネストされたオブジェクトを深くコピーできます。 3.クローニングにおける円形の参照とパフォーマンスの問題を避けるために注意し、クローニング操作を最適化して効率を向上させます。

PHP対Python:ユースケースとアプリケーションPHP対Python:ユースケースとアプリケーションApr 17, 2025 am 12:23 AM

PHPはWeb開発およびコンテンツ管理システムに適しており、Pythonはデータサイエンス、機械学習、自動化スクリプトに適しています。 1.PHPは、高速でスケーラブルなWebサイトとアプリケーションの構築においてうまく機能し、WordPressなどのCMSで一般的に使用されます。 2。Pythonは、NumpyやTensorflowなどの豊富なライブラリを使用して、データサイエンスと機械学習の分野で驚くほどパフォーマンスを発揮しています。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境