Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama

Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama

PHPz
PHPzasal
2023-06-15 08:25:231492semak imbas

Dengan perkembangan Internet, teknologi crawler telah menjadi alat yang sangat diperlukan dalam pemerolehan data, analisis pasaran, penyelidikan produk yang kompetitif dan bidang lain. Antara teknologi perangkak tradisional, Python ialah bahasa pilihan untuk membangunkan alat perangkak Berbanding dengan bahasa lain, Python mempunyai kelebihan kerana mudah dipelajari, ringkas dan kaya dengan perpustakaan perangkak. Tetapi hari ini, kami akan memperkenalkan satu lagi bahasa perangkak yang sangat baik-PHP, dan tekniknya yang cekap dalam kombinasi dengan Selenium.

1. Apakah itu Selenium
Selenium ialah alat yang digunakan secara meluas dalam ujian automasi web. Melalui Selenium, anda boleh mensimulasikan tingkah laku manusia untuk mengendalikan tapak web, dan melaksanakan ujian laman web automatik dan juga pembangunan perangkak. Teras Selenium ialah WebDriver, yang boleh mensimulasikan gelagat penyemak imbas, termasuk mengklik, memasukkan, menukar tetingkap dan semua gelagat lain yang memerlukan operasi manusia. Selenium sangat berguna untuk perangkak dalam senario kompleks yang memerlukan log masuk, pengesahan, dsb.

2. Kelebihan menggunakan Selenium untuk membangunkan perangkak
1 Sesuai untuk merangkak data dalam senario yang kompleks
2 Boleh secara langsung meniru tingkah laku manusia dan mengelakkan masalah dengan IP atau Kuki
3 Java , Python, Ruby dan bahasa lain yang disokong

3. Pemasangan selenium
Selenium boleh dipasang terus dalam PHP Kaedah pemasangan adalah seperti berikut:

1.
curl -sS https://getcomposer.org/installer |. php

2 Cipta fail konfigurasi composer.json dan tambah pakej Selenium WebDriver:

{
"memerlukan" : {

"php-webdriver/webdriver": "dev-master"

}
}

3 Pasang WebDriver melalui komposer:

php composer.phar install

4 ia:

wget https://selenium-release.storage.googleapis.com/2.53/selenium-server-standalone-2.53.1.jar

Empat amalan kod perangkak PHP+Selenium
di bawah Kami akan memanggil Selenium untuk mensimulasikan carian Baidu, mencari kata kunci yang berkaitan dan mengembalikan hasil merangkak.

Pertama sekali, anda perlu mengimport WebDriver dan mulakan penyemak imbas:

require_once('vendor/autoload.php');
use FacebookWebDriverRemoteRemoteWebDriver;
use FacebookDriverByWeb;

$host = 'http://localhost:4444/wd/hub';

$driver = RemoteWebDriver::create($host, array('browserName' => 'firefox'));

Seterusnya kita masukkan URL dan cari kotak carian:

$driver->get("http://www.baidu.com");

$element = $driver- >findElement (WebDriverBy::id('kw'));

Masukkan kata kunci dalam kotak carian dan lakukan carian:

$element->sendKeys("Selenium");

$element->submit();

Menunggu pelayar dimuatkan sepenuhnya, kami mencari kedudukan hasil carian dengan mencari butang halaman seterusnya:

$driver ->tunggu() ->sehingga(

WebDriverExpectedCondition::elementToBeClickable(WebDriverBy::xpath("//a[contains(@class,'n') and contains(@class,'next')]" ))
) ;

Selepas mencari hasil carian, kami menyimpan hasilnya ke dalam $result array:

$result = array();

$elements = $driver ->findElements(WebDriverBy: :cssSelector('h3 > a'));
foreach ($elemen sebagai $elemen) {
$result[] = array($element->getText(), $element->getAttribute( 'href'));
}

Akhir sekali, kami menutup penyemak imbas dan mengembalikan hasilnya:

$driver->quit();

echo json_encode($result) ;

Di atas ialah kod amalan perangkak berdasarkan PHP+Selenium.

5. Ringkasan

Selenium ialah alat yang sangat diperlukan dalam ujian automatik web dan pembangunan perangkak. Artikel ini memperkenalkan kelebihan teknologi Selenium dan cara menulis perangkak Selenium dalam PHP. Walaupun Python masih menjadi pilihan yang lebih popular dalam pembangunan perangkak, PHP, sebagai bahasa yang sangat baik, digabungkan dengan Selenium, boleh menjadi alat perangkak yang berkuasa, memberikan lebih banyak kemungkinan untuk analisis data, penyelidikan pasaran dan bidang lain.

Atas ialah kandungan terperinci Teknologi pembangunan crawler: Gunakan PHP dan Selenium untuk membina perangkak web kelas pertama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn