Rumah >pembangunan bahagian belakang >tutorial php >Perangkak web PHP: cara menggunakan protokol HTTP dan HTTPS

Perangkak web PHP: cara menggunakan protokol HTTP dan HTTPS

WBOY
WBOYasal
2023-06-15 14:38:521174semak imbas

Dengan perkembangan Internet, maklumat di Internet semakin banyak, tetapi bukan mudah untuk mendapatkan maklumat berharga di Internet. Bagi sesetengah aplikasi yang perlu mendapatkan maklumat halaman web, perangkak web telah menjadi salah satu alat yang sangat diperlukan. Dalam teknologi perangkak web, PHP juga telah menjadi bahasa yang digunakan secara meluas.

Artikel ini akan menumpukan pada cara menggunakan protokol HTTP dan HTTPS untuk merangkak maklumat web.

1. Protokol HTTP

HTTP ialah Hypertext Transfer Protocol, iaitu protokol lapisan aplikasi yang digunakan untuk menghantar dokumen hipermedia. Biasanya digunakan di World Wide Web, fungsi utamanya ialah komunikasi antara klien dan pelayan berdasarkan protokol TCP. Oleh kerana kesederhanaan dan kelajuannya, ia telah menjadi bahagian yang sangat diperlukan dalam aplikasi berkaitan perangkak web.

Dalam PHP, anda boleh menggunakan sambungan cURL untuk merangkak protokol HTTP. Mengambil permintaan HTTP GET sebagai contoh, berikut ialah kod sampel mudah:

$url = 'http://example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
$output = curl_exec($ch);
curl_close($ch);
echo $output;

Seperti yang ditunjukkan di atas, mula-mula tentukan alamat URL yang perlu mendapatkan maklumat, kemudian mulakan pemegang cURL dan tetapkan pilihan yang berkaitan. Antaranya, pilihan CURLOPT_URL menunjukkan alamat URL yang perlu diakses dan pilihan CURLOPT_RETURNTRANSFER menunjukkan bahawa hasil respons dikembalikan dan bukannya output. Akhirnya, selepas pelaksanaan selesai, pemegang cURL ditutup dan keputusan yang diperolehi adalah output.

Selain itu, semasa merangkak protokol HTTP, anda perlu memberi perhatian kepada perkara berikut:

  1. Tamat masa perlu ditetapkan untuk mengelakkan tamat masa daripada berlaku semasa proses mendapatkan maklumat halaman web dan menyebabkan permintaan gagal.
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 设置超时时间为10秒
  1. Untuk sesetengah halaman web yang memerlukan log masuk atau membawa pengepala permintaan, parameter yang berkaitan perlu ditetapkan semasa permintaan.
curl_setopt($ch, CURLOPT_COOKIE, 'key=value'); // 设置cookie
curl_setopt($ch, CURLOPT_HTTPHEADER, array('Content-Type: application/json')); // 设置请求头

2. Protokol HTTPS

HTTPS ialah protokol yang melaksanakan penghantaran selamat HTTP melalui protokol SSL/TLS, yang boleh memastikan keselamatan dan integriti proses penghantaran data. Berbanding dengan protokol HTTP, protokol HTTPS boleh menghalang serangan berniat jahat dan aktiviti pengintipan. Apabila merangkak halaman web, menggunakan protokol HTTPS juga boleh menjadikan penghantaran data lebih selamat.

Dalam PHP, anda juga boleh menggunakan sambungan cURL untuk merangkak protokol HTTPS. Berikut ialah kod sampel mudah:

$url = 'https://example.com';
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0); // 关闭SSL证书校验
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0); // 关闭SSL证书校验
$output = curl_exec($ch);
curl_close($ch);
echo $output;

Perlu diambil perhatian bahawa dalam merangkak protokol HTTPS, pilihan CURLOPT_SSL_VERIFYHOST dan CURLOPT_SSL_VERIFYPEER perlu ditetapkan kepada 0 untuk mematikan pengesahan sijil SSL. Jika anda tidak mematikan pengesahan sijil SSL, cURL tidak akan dapat mengecam sijil semasa menyambung, menyebabkan permintaan gagal.

Selain itu, apabila merangkak melalui protokol HTTPS, anda juga perlu memberi perhatian kepada perkara berikut:

  1. Gunakan alamat URL yang betul. Format URL HTTPS ialah https://example.com Perhatikan kes pengepala protokol.
  2. Untuk sesetengah tapak web yang memerlukan sijil pelanggan, parameter yang berkaitan perlu ditetapkan apabila meminta.
curl_setopt($ch, CURLOPT_SSLCERT, '/path/to/client/cert'); // 设置客户端证书路径
curl_setopt($ch, CURLOPT_SSLKEY, '/path/to/client/key'); // 设置客户端证书的key路径

3. Ringkasan

Di atas ialah kaedah dan langkah berjaga-jaga untuk menggunakan protokol HTTP dan HTTPS untuk merangkak maklumat halaman web. Sama ada HTTP atau HTTPS, ia adalah protokol penting dalam teknologi perangkak web. Melalui penggunaan sambungan cURL, kami boleh merangkak dengan mudah semua jenis maklumat di Internet, menjadikan aplikasi kami lebih kaya dan berkuasa.

Atas ialah kandungan terperinci Perangkak web PHP: cara menggunakan protokol HTTP dan HTTPS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn