検索
ホームページバックエンド開発PHPチュートリアルPHP と Selenium を使用してクローラー データ収集を実装する

インターネット技術の継続的な発展に伴い、データは非常に貴重なリソースとなり、ますます多くの企業がデータの価値に注目し、データマイニングと分析を通じて競争力を向上させ始めています。このプロセスでは、データ収集がデータ分析の最初のステップになります。

現在、クローラー テクノロジーはデータ収集の非常に一般的な方法です。クローラー テクノロジーを使用すると、製品情報、フォーラムの投稿、一部の Web サイトのニュース記事など、インターネット上のさまざまなデータを効果的に取得できます。この記事では、PHPとSeleniumを使用してクローラーのデータ収集を実装する方法を紹介します。

1. セレンとは何ですか?

Selenium は Web アプリケーションをテストするためのツールで、Chrome、Firefox、IE などの複数のブラウザをサポートしています。 Selenium は、リンクのクリック、テキスト ボックスへのデータの入力、フォームの送信など、Web 上のブラウザ操作を自動化できます。

データ収集では、Seleniumを利用してブラウザによるWebページの動作をシミュレートすることでデータ収集を実現します。一般に、データを収集する手順は次のとおりです。

  1. Selenium を使用して収集する Web ページを開きます
  2. Web ページ上でテキスト ボックスへのデータの入力などの操作を実行します。待ち、
  3. 必要なデータを取得します

2. PHP を使用して Selenium を呼び出します

Selenium 自体は Java で書かれているため、次の操作を行う必要があります。 Java で Selenium スクリプトを作成し、PHP を使用して呼び出します。

  1. Java と Selenium のインストール

まず、Java と Selenium をインストールする必要があります。ここでは、Ubuntu を例として、次のコマンドを実行するだけです:

sudo apt-get installdefault-jre

sudo apt-get installdefault-jdk

Download Selenium の Java ライブラリはプロジェクト ディレクトリに配置されます。

  1. Selenium スクリプトの書き込み

プロジェクト ディレクトリに selenium.php という名前のファイルを作成し、その中に次のコードのような Java スクリプトを書き込みます。 # #

import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

public class SeleniumDemo {
 public static void main(String[] args) {
  System.setProperty("webdriver.chrome.driver", "/path/to/chromedriver"); // chromedriver的路径
  WebDriver driver = new ChromeDriver();
  driver.get("http://www.baidu.com"); // 要访问的网站
  String title = driver.getTitle(); // 获取网页标题
  System.out.println(title);
  driver.quit(); // 退出浏览器
 }
}

このスクリプトは Chrome ブラウザを開いて Baidu ホームページにアクセスし、Web ページのタイトルを取得して出力します。 「/path/to/chromedriver」をマシン上の実際のパスに置き換える必要があります。

    Selenium の呼び出し
selenium.php ファイルで、exec() 関数を使用して Java スクリプトを呼び出します。コードは次のとおりです:

<?php
$output = array();
exec("java -cp .:/path/to/selenium-java.jar SeleniumDemo 2>&1", $output);
$title = $output[0];
echo $title;
?>

ここでは、PHP の exec() 関数を使用して Java スクリプトを呼び出します。「/path/to/selenium-java.jar」をマシン上の実際のパスに置き換える必要があります。

上記のコードを実行すると、画面に Baidu の Web ページ タイトルの出力が表示されるはずです。

3. Selenium を使用してデータ収集を実装します

Selenium の基礎を使用して、データ収集の実装を開始できます。京東モールの商品データ収集を例として、Selenium を使用してそれを実装する方法を示します。

    ウェブページを開く
まず、京東モールのホームページを開いて、回収する商品を検索する必要があります。このプロセスでは、Web ページの読み込み時間に注意する必要があります。sleep() 関数を使用すると、プログラムが一定期間一時停止し、Web ページが完全に読み込まれるまで待機することがあります。

<?php
$output = array();
exec("java -cp .:/path/to/selenium-java.jar JingDongDemo 2>&1", $output);
echo $output[0]; // 输出采集到的商品数据
?>

// JingDongDemo.java

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.firefox.FirefoxDriver;
import java.util.List;
import java.util.concurrent.TimeUnit;

public class JingDongDemo {

 public static void main(String[] args) {
  System.setProperty("webdriver.gecko.driver", "/path/to/geckodriver"); // geckodriver的路径
  WebDriver driver = new FirefoxDriver();
  driver.manage().timeouts().implicitlyWait(10, TimeUnit.SECONDS); // 等待网页加载
  driver.get("http://www.jd.com"); // 打开网站
  driver.findElement(By.id("key")).sendKeys("Iphone 7"); // 输入要搜索的商品
  driver.findElement(By.className("button")).click(); // 单击搜索按钮
  try {
   Thread.sleep(5000); // 等待网页完全加载
  } catch (InterruptedException e) {
   e.printStackTrace();
  }
 }
}

    商品データの取得
次に、検索結果内の商品データを取得する必要があります。 JD.com の Web ページでは、製品データはクラス "gl-item" の div に配置されており、findElements() を使用して修飾されたすべての div 要素を取得し、内容を 1 つずつ解析できます。

List<WebElement> productList = driver.findElements(By.className("gl-item")); // 获取所有商品列表项

for(WebElement product : productList) { // 逐个解析商品数据
 String name = product.findElement(By.className("p-name")).getText();
 String price = product.findElement(By.className("p-price")).getText();
 String commentCount = product.findElement(By.className("p-commit")).getText();
 String shopName = product.findElement(By.className("p-shop")).getText();
 String output = name + "    " + price + "    " + commentCount + "    " + shopName + "
";
 System.out.println(output);
}

この時点で、PHP と Selenium を使用したクローラー データ収集の実装に成功しました。もちろん、実際のデータ収集プロセスでは、Web サイトのクローラー対策戦略、ブラウザーと Selenium のバージョンの互換性など、注意しなければならないことがたくさんあります。この記事が、データ収集が必要な友人の参考になれば幸いです。

以上がPHP と Selenium を使用してクローラー データ収集を実装するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
PHPの継続的な使用:その持久力の理由PHPの継続的な使用:その持久力の理由Apr 19, 2025 am 12:23 AM

まだ人気があるのは、使いやすさ、柔軟性、強力なエコシステムです。 1)使いやすさとシンプルな構文により、初心者にとって最初の選択肢になります。 2)Web開発、HTTP要求とデータベースとの優れた相互作用と密接に統合されています。 3)巨大なエコシステムは、豊富なツールとライブラリを提供します。 4)アクティブなコミュニティとオープンソースの性質は、それらを新しいニーズとテクノロジーの傾向に適応させます。

PHPおよびPython:類似点と相違点を調査しますPHPおよびPython:類似点と相違点を調査しますApr 19, 2025 am 12:21 AM

PHPとPythonはどちらも、Web開発、データ処理、自動化タスクで広く使用されている高レベルのプログラミング言語です。 1.PHPは、ダイナミックウェブサイトとコンテンツ管理システムの構築によく使用されますが、PythonはWebフレームワークとデータサイエンスの構築に使用されることがよくあります。 2.PHPはエコーを使用してコンテンツを出力し、Pythonは印刷を使用します。 3.両方ともオブジェクト指向プログラミングをサポートしますが、構文とキーワードは異なります。 4。PHPは弱いタイプの変換をサポートしますが、Pythonはより厳しくなります。 5. PHPパフォーマンスの最適化には、Opcacheおよび非同期プログラミングの使用が含まれますが、PythonはCprofileおよび非同期プログラミングを使用します。

PHPおよびPython:さまざまなパラダイムが説明されていますPHPおよびPython:さまざまなパラダイムが説明されていますApr 18, 2025 am 12:26 AM

PHPは主に手順プログラミングですが、オブジェクト指向プログラミング(OOP)もサポートしています。 Pythonは、OOP、機能、手続き上のプログラミングなど、さまざまなパラダイムをサポートしています。 PHPはWeb開発に適しており、Pythonはデータ分析や機械学習などのさまざまなアプリケーションに適しています。

PHPとPython:彼らの歴史を深く掘り下げますPHPとPython:彼らの歴史を深く掘り下げますApr 18, 2025 am 12:25 AM

PHPは1994年に発信され、Rasmuslerdorfによって開発されました。もともとはウェブサイトの訪問者を追跡するために使用され、サーバー側のスクリプト言語に徐々に進化し、Web開発で広く使用されていました。 Pythonは、1980年代後半にGuidovan Rossumによって開発され、1991年に最初にリリースされました。コードの読みやすさとシンプルさを強調し、科学的コンピューティング、データ分析、その他の分野に適しています。

PHPとPythonの選択:ガイドPHPとPythonの選択:ガイドApr 18, 2025 am 12:24 AM

PHPはWeb開発と迅速なプロトタイピングに適しており、Pythonはデータサイエンスと機械学習に適しています。 1.PHPは、単純な構文と迅速な開発に適した動的なWeb開発に使用されます。 2。Pythonには簡潔な構文があり、複数のフィールドに適しており、強力なライブラリエコシステムがあります。

PHPとフレームワーク:言語の近代化PHPとフレームワーク:言語の近代化Apr 18, 2025 am 12:14 AM

PHPは、多数のWebサイトとアプリケーションをサポートし、フレームワークを通じて開発ニーズに適応するため、近代化プロセスで依然として重要です。 1.PHP7はパフォーマンスを向上させ、新機能を紹介します。 2。Laravel、Symfony、Codeigniterなどの最新のフレームワークは、開発を簡素化し、コードの品質を向上させます。 3.パフォーマンスの最適化とベストプラクティスは、アプリケーションの効率をさらに改善します。

PHPの影響:Web開発などPHPの影響:Web開発などApr 18, 2025 am 12:10 AM

phphassiblasifly-impactedwebdevevermentandsbeyondit.1)itpowersmajorplatformslikewordpratsandexcelsindatabase interactions.2)php'sadaptableability allowsitale forlargeapplicationsusingframeworkslikelavel.3)

スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか?スカラータイプ、リターンタイプ、ユニオンタイプ、ヌル可能なタイプなど、PHPタイプのヒントはどのように機能しますか?Apr 17, 2025 am 12:25 AM

PHPタイプは、コードの品質と読みやすさを向上させるためのプロンプトがあります。 1)スカラータイプのヒント:php7.0であるため、基本データ型は、int、floatなどの関数パラメーターで指定できます。 3)ユニオンタイプのプロンプト:PHP8.0であるため、関数パラメーターまたは戻り値で複数のタイプを指定することができます。 4)Nullable Typeプロンプト:null値を含めることができ、null値を返す可能性のある機能を処理できます。

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)