インターネットの発展に伴い、Web クローラーは間違いなく情報を取得する重要な手段となっています。複数の異なる Web サイトに直面し、情報を収集する必要がある場合、各 Web サイトのページ構造を研究することに集中する必要があります。では、さまざまな Web サイト上のデータをクロールする一般的な方法はあるのでしょうか?答えは「はい」です。この記事では、PHP と Selenium を使用してさまざまな Web ページ上のデータをクロールする方法を紹介します。
セレンとは何ですか?
Selenium は Web オートメーション テスト コミュニティの標準の 1 つと言え、入力、クリック、ドロップダウン ボックスの選択、ファイルのアップロードなど、ブラウザーでのユーザー操作をシミュレートできます。 Selenium を使用して Web ページの自動テストを実装できますが、ここでは Selenium を使用してデータをクロールします。
なぜ Selenium を使用するのですか?
データをクロールしていると、単純なcurlまたはfile_get_contentsリクエストを通じてアクセスできるページがいくつか出てきます。しかし、Web テクノロジーの発展に伴い、多くの Web サイトでは Ajax、Vue、React などのフロントエンド フレームワークが採用され、ページ上のデータは JavaScript を通じて非同期で取得されるようになりました。この場合、ページの完全なレンダリング結果を取得するには、ブラウザの動作をシミュレートする必要があります。また、Web サイトによってはクローラーを防ぐため、認証コードなどを使用して認証を行う場合がありますが、その際には Selenium を使用して手動操作をシミュレートしてからデータを取得する必要もあります。
PHP と Selenium を使用してデータをキャプチャする基本プロセス
最初のステップは Selenium をインストールすることです
Selenium のインストールは非常に簡単です。ターミナルで次のコマンドを実行するだけです:
composer require php-webdriver/webdriver
インストールが完了したら、対応するブラウザのドライバーをダウンロードする必要があります。Chrome を例に挙げると、chromedriver をダウンロードして、ダウンロードしたドライバーを配置する必要がありますPATH 変数が指す場所にあります。
2 番目のステップ、Selenium の起動
Selenium の起動は非常に簡単で、ターミナルに次のコマンドを入力するだけです:
java -jar path/to/selenium-server-standalone-3.141.59.jar
このうち、path/to/ は Selenium のインストール パスです。 。
3 番目のステップは、Selenium を使用してデータ キャプチャを実装することです。
Selenium とブラウザ ドライバーを使用すると、PHP を直接使用して Selenium の API を呼び出し、自動化された Web サイト テストとデータ キャプチャを実装できます。例として、Douban Movies の TOP250 の映画情報をクロールする例を見てみましょう。
- ブラウザを開いて URL を入力し、
use FacebookWebDriverRemoteDesiredCapabilities; use FacebookWebDriverRemoteRemoteWebDriver; $host = 'http://localhost:4444/wd/hub'; // Selenium本地服务地址 $capabilities = DesiredCapabilities::chrome(); $webDriver = RemoteWebDriver::create($host, $capabilities); $url = 'https://movie.douban.com/top250'; $webDriver->get($url);
- 次をクリックしてください。ページは続行します 映画情報の取得
do { // 获取电影列表并输出 $list = $webDriver->findElements(WebDriverBy::cssSelector('.grid_view .item')); foreach ($list as $item) { $name = $item->findElement(WebDriverBy::cssSelector('.title'))->getText(); $directors = $item->findElement(WebDriverBy::cssSelector('.bd p:first-child'))->getText(); $rate = $item->findElement(WebDriverBy::cssSelector('.rating_num'))->getText(); echo "$name $directors $rate "; } // 点击下一页 $nextPageBtn = $webDriver->findElement(WebDriverBy::cssSelector('.paginator .next a')); $nextPageBtnClassName = $nextPageBtn->getAttribute('class'); if (strpos($nextPageBtnClassName, 'disabled') === false) { $nextPageBtn->click(); } else { break; } // 等待新页面加载完成 $webDriver->wait()->until(WebDriverExpectedCondition::urlContains(intval($page + 1))); } while (true);
- ブラウザを閉じる
$webDriver->quit();
上記のコードを使用すると、TOP250 の Douban 映画の関連情報を簡単に取得できます。
概要
この記事では、PHP と Selenium を使用してさまざまな Web サイト上のデータをクロールする方法を紹介し、具体的な実装手順を例を挙げて詳しく説明します。 Selenium を使用すると、データをより簡単に取得し、必要な情報をより迅速に取得できるため、高度なカスタマイズが必要な一部のクロール タスクに非常に役立ちます。
以上がPHP と Selenium: さまざまな Web ページからデータを収集するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

PHPは、現代のWeb開発、特にコンテンツ管理とeコマースプラットフォームで依然として重要です。 1)PHPには、LaravelやSymfonyなどの豊富なエコシステムと強力なフレームワークサポートがあります。 2)パフォーマンスの最適化は、Opcacheとnginxを通じて達成できます。 3)PHP8.0は、パフォーマンスを改善するためにJITコンパイラを導入します。 4)クラウドネイティブアプリケーションは、DockerおよびKubernetesを介して展開され、柔軟性とスケーラビリティを向上させます。

PHPは、特に迅速な開発や動的なコンテンツの処理に適していますが、データサイエンスとエンタープライズレベルのアプリケーションには良くありません。 Pythonと比較して、PHPはWeb開発においてより多くの利点がありますが、データサイエンスの分野ではPythonほど良くありません。 Javaと比較して、PHPはエンタープライズレベルのアプリケーションでより悪化しますが、Web開発により柔軟性があります。 JavaScriptと比較して、PHPはバックエンド開発により簡潔ですが、フロントエンド開発のJavaScriptほど良くありません。

PHPとPythonにはそれぞれ独自の利点があり、さまざまなシナリオに適しています。 1.PHPはWeb開発に適しており、組み込みのWebサーバーとRich Functionライブラリを提供します。 2。Pythonは、簡潔な構文と強力な標準ライブラリを備えたデータサイエンスと機械学習に適しています。選択するときは、プロジェクトの要件に基づいて決定する必要があります。

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting()やvar_dump()などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7

PHPが多くのWebサイトよりも優先テクノロジースタックである理由には、その使いやすさ、強力なコミュニティサポート、広範な使用が含まれます。 1)初心者に適した学習と使用が簡単です。 2)巨大な開発者コミュニティと豊富なリソースを持っています。 3)WordPress、Drupal、その他のプラットフォームで広く使用されています。 4)Webサーバーとしっかりと統合して、開発の展開を簡素化します。

PHPは、特にWeb開発の分野で、最新のプログラミングで強力で広く使用されているツールのままです。 1)PHPは使いやすく、データベースとシームレスに統合されており、多くの開発者にとって最初の選択肢です。 2)動的コンテンツ生成とオブジェクト指向プログラミングをサポートし、Webサイトを迅速に作成および保守するのに適しています。 3)PHPのパフォーマンスは、データベースクエリをキャッシュおよび最適化することで改善でき、その広範なコミュニティと豊富なエコシステムにより、今日のテクノロジースタックでは依然として重要になります。

PHPでは、弱い参照クラスを通じて弱い参照が実装され、ガベージコレクターがオブジェクトの回収を妨げません。弱い参照は、キャッシュシステムやイベントリスナーなどのシナリオに適しています。オブジェクトの生存を保証することはできず、ごみ収集が遅れる可能性があることに注意する必要があります。

\ _ \ _ Invokeメソッドを使用すると、オブジェクトを関数のように呼び出すことができます。 1。オブジェクトを呼び出すことができるように\ _ \ _呼び出しメソッドを定義します。 2。$ obj(...)構文を使用すると、PHPは\ _ \ _ Invokeメソッドを実行します。 3。ロギングや計算機、コードの柔軟性の向上、読みやすさなどのシナリオに適しています。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MantisBT
Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

メモ帳++7.3.1
使いやすく無料のコードエディター

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SublimeText3 中国語版
中国語版、とても使いやすい
