ホームページ  >  記事  >  バックエンド開発  >  クローラーの開発と実装: PHP と Selenium の実践戦略

クローラーの開発と実装: PHP と Selenium の実践戦略

PHPz
PHPzオリジナル
2023-06-16 08:41:281502ブラウズ

インターネットの発展に伴い、Web ページから取得するデータはますます増えており、Web ページを手動で閲覧して情報を読み取るのとは異なり、クローラー技術を使用すると自動的にデータを取得できます。クローラー テクノロジーにおける Selenium は、Web ページ上で操作するユーザーをシミュレートし、Web ページ上のデータを取得できる自動テスト ツールです。この記事では、PHPとSeleniumを使ってクローラー機能を実装する方法を紹介します。

セレンとは何ですか?

Selenium は、入力、クリック、スクロールなど、Web ページ上のすべてのユーザー操作をシミュレートし、Web ページ上のデータを取得できる自動テスト ツールです。 Selenium は、Chrome、Firefox、Edge などの複数のブラウザをサポートし、さまざまな言語を使用してテスト スクリプトを作成できます。クローラー テクノロジーでは、Selenium は Web ページを操作するユーザーをシミュレートし、Web ページからデータをクロールできます。

クローラ開発前の準備

クローラ開発に Selenium を使用する前に、Chrome のブラウザ ドライバなど、Selenium をサポートするブラウザ ドライバをインストールする必要があります。 Selenium 公式 Web サイトから Chrome ドライバーの最新バージョンをダウンロードしてインストールできます。

次に、PHP と関連拡張機能 (php-webdriver など) をローカルにインストールする必要があります。以下に示すように、Composer を使用してインストールできます。

composer require php-webdriver/webdriver

簡単な例: Web ページのタイトルを取得する

クローラ開発に Selenium を使用する最初のステップは、Web ページを開くことです。データをクロールする必要があります。 Web ページのタイトルを取得する必要があるとします。次の手順に従います。

<?php
require_once 'vendor/autoload.php';

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;

// 启动Chrome浏览器
$capabilities = DesiredCapabilities::chrome();
$driver = RemoteWebDriver::create('http://localhost:9515', $capabilities);

// 打开需要抓取数据的网页
$driver->get('https://www.example.com');

// 获取网页标题
$title = $driver->getTitle();
echo $title;

// 关闭浏览器
$driver->quit();

コード分析:

  1. まず、require_once を使用して次のことを行います。必要なクラス ライブラリ ドキュメント。
  2. Use DesiredCapabilitiesブラウザ ドライバを作成し、Chrome ブラウザを指定します。
  3. RemoteWebDriver::createを使用します。Chrome ブラウザを起動し、Selenium サーバーに接続します。
  4. get メソッドを使用して、データをキャプチャする必要がある Web ページを開きます。
  5. getTitle メソッドを使用して、Web ページのタイトルを取得します。
  6. Webページのタイトルを出力します。
  7. 最後に、
  8. quit メソッドを使用して Chrome ブラウザを閉じます。
簡単な例: Web ページにログインしてデータをクロールする

実際のクローラー開発では、必要なデータを取得するために Web ページにログインする必要がある場合があります。以下は、Web サイトにログインしてデータを取得するためのサンプル コードです:

<?php
require_once 'vendor/autoload.php';

use FacebookWebDriverRemoteDesiredCapabilities;
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookWebDriverWebDriverBy;

// 启动Chrome浏览器
$capabilities = DesiredCapabilities::chrome();
$driver = RemoteWebDriver::create('http://localhost:9515', $capabilities);

// 打开登录页面
$driver->get('https://www.example.com/login');

// 输入账号密码并登录
$accountInput = $driver->findElement(WebDriverBy::id('account'));
$passwordInput = $driver->findElement(WebDriverBy::id('password'));
$submitButton = $driver->findElement(WebDriverBy::id('submit'));
$accountInput->sendKeys('your_username');
$passwordInput->sendKeys('your_password');
$submitButton->click();

// 等待登录成功并打开需要抓取数据的页面
$driver->wait(10)->until(
    WebDriverExpectedCondition::titleContains('Homepage')
);
$driver->get('https://www.example.com/data');

// 获取数据
$data = $driver->findElement(WebDriverBy::cssSelector('.data'))->getText();
echo $data;

// 关闭浏览器
$driver->quit();

コード分析:

    まず、
  1. require_once を使用して、必要なクラス ライブラリを導入します。ファイル。
  2. Use
  3. DesiredCapabilitiesブラウザ ドライバを作成し、Chrome ブラウザを指定します。
  4. RemoteWebDriver::create
  5. を使用します。Chrome ブラウザを起動し、Selenium サーバーに接続します。
  6. get
  7. メソッドを使用して、ログインが必要なページを開きます。
  8. findElement
  9. メソッドを使用して、アカウントの入力要素の ID とパスワードを通じて対応する WebElement オブジェクトを取得し、sendKeys メソッドを呼び出してアカウントのパスワードを入力します。
  10. findElement
  11. メソッドを使用して、送信ボタンの ID を通じて対応する WebElement オブジェクトを取得し、click メソッドを呼び出してクリックしてログイン操作を完了します。
  12. wait
  13. メソッドを使用して、ページがジャンプした後のタイトルに Homepage が含まれるまで待機します。
  14. get
  15. メソッドを使用して、データをキャプチャする必要があるページを開きます。
  16. findElement
  17. メソッドを使用して、CSS セレクターを通じて対応する WebElement オブジェクトを取得し、getText メソッドを使用してテキスト コンテンツを取得します。 取得したデータを出力します。
  18. 最後に、
  19. quit
  20. メソッドを使用して Chrome ブラウザを閉じます。
  21. 上記はサンプルコードであり、実際の開発ではWebサイトのページ構造や要素IDに合わせて修正する必要があります。

概要

この記事では、クローラ開発に PHP と Selenium を使用する方法を紹介し、Web ページのタイトルの取得とデータをクロールするためのログインの 2 つの側面からのデモの例を示します。 Selenium は自動テスト ツールとして、Web ページ上でのユーザー操作をシミュレートし、Web ページ内のデータのキャプチャを容易にし、他の自動テスト シナリオでも使用できます。 Seleniumを使いこなすことで、技術レベルの向上と作業効率の向上を図ることができます。

以上がクローラーの開発と実装: PHP と Selenium の実践戦略の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。