Rumah >pembangunan bahagian belakang >tutorial php >Cipta perangkak web yang pantas dan cekap: contoh PHP dan Selenium
Dengan perkembangan berterusan Internet, merangkak data telah menjadi kemahiran penting bagi ramai orang. Perangkak web adalah salah satu alat penting untuk merangkak data.
Perangkak web boleh mengakses tapak web secara automatik, mengambil kandungan, menganalisis halaman dan mengekstrak data yang diperlukan. Antaranya, Selenium ialah alat ujian automasi rangkaian yang sangat baik yang boleh mensimulasikan operasi pengguna sebenar dan sangat membantu untuk membina perangkak web.
Artikel ini akan memperkenalkan cara menggunakan PHP dan Selenium untuk mencipta perangkak web yang pantas dan cekap Sebelum melakukan ini, kita perlu memahami beberapa pengetahuan asas.
1. Persekitaran pemasangan
Sebelum anda mula, anda perlu memasang PHP dan Selenium.
1. Pasang PHP
Dalam persekitaran Windows, anda boleh memuat turun dan memasang pakej perisian XAMPP atau WAMP, dan pengguna Mac boleh memasang pakej perisian MAMP.
Dalam persekitaran Linux, anda boleh memasang PHP melalui baris arahan Contohnya, pada sistem Ubuntu, anda boleh memasangnya melalui arahan berikut:
sudo apt-get install php7.0<.>
Perlu diingat bahawa semasa memasang PHP, anda perlu mengesahkan bahawa beberapa sambungan yang diperlukan telah dipasang, seperti: php-curl. Anda boleh mengesahkan sama ada sambungan telah dipasang dengan menjalankan arahan berikut: php -m | grep curl Jika tiada sambungan curl, anda perlu memasangnya secara manual. 2. Pasang SeleniumSebelum memasang Selenium, anda perlu memasang Java Runtime Environment (JRE). Selenium Server Standalone Edition boleh dimuat turun dari tapak web rasmi Selenium (https://www.selenium.dev/downloads/). Anda boleh menggunakan arahan berikut untuk memulakan pelayan Selenium: java -jar selenium-server-standalone-3.xx.x.jar2 rangkaian menggunakan Selenium dan PHP Crawler Sebelum anda mula membina perangkak web, anda perlu memahami beberapa konsep asas:<?php require_once('vendor/autoload.php'); use FacebookWebDriverRemoteDesiredCapabilities; use FacebookWebDriverRemoteRemoteWebDriver; use FacebookWebDriverWebDriverBy; use FacebookWebDriverWebDriverKeys; // 设置WebDriver $host = 'http://localhost:4444/wd/hub'; $capabilities = DesiredCapabilities::chrome(); $driver = RemoteWebDriver::create($host, $capabilities, 5000); // 打开百度 $driver->get('https://www.baidu.com'); // 搜索关键字 $search_box = $driver->findElement(WebDriverBy::id('kw')); $search_box->sendKeys('Selenium'); $search_box->sendKeys(WebDriverKeys::ENTER); // 等待页面加载完成 sleep(5); // 抓取搜索结果链接 $elements = $driver->findElements(WebDriverBy::xpath('//div/h3/a')); foreach ($elements as $element) { echo $element->getAttribute('href')." "; } // 关闭浏览器 $driver->quit(); ?>Pertama, kita perlu menyediakan pemacu web, termasuk penyemak imbas yang digunakan (pelayar Chrome digunakan di sini ) dan alamat perkhidmatan WebDriver. Seterusnya, gunakan WebDriver untuk membuka halaman utama Baidu. Kami akan menemui kotak carian Baidu mengikut id, masukkan kata kunci Selenium dan tekan Enter untuk menyerahkan carian. Selepas itu, tunggu halaman dimuatkan dan dapatkan pautan ke semua hasil carian. Akhir sekali, tutup penyemak imbas.
Atas ialah kandungan terperinci Cipta perangkak web yang pantas dan cekap: contoh PHP dan Selenium. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!