Rumah > Artikel > pembangunan bahagian belakang > Bagaimana untuk menggunakan modul Permintaan untuk merangkak halaman web?
Merangkak halaman web sebenarnya untuk mendapatkan maklumat halaman web melalui URL Intipati maklumat halaman web ialah sekeping kod HTML dengan JavaScript dan CSS ditambah. Python menyediakan modul pihak ketiga, permintaan, untuk menangkap maklumat halaman web Modul permintaan memanggil dirinya "HTTP untuk Manusia", yang bermaksud modul HTTP yang direka khusus untuk manusia. Modul ini menyokong penghantaran permintaan dan mendapatkan respons.
Modul permintaan menyediakan banyak fungsi untuk menghantar permintaan HTTP Fungsi permintaan yang biasa digunakan ditunjukkan dalam Jadual 10-1.
Jadual 10-1 Fungsi permintaan modul permintaan
Objek kelas Respons yang disediakan oleh permintaan modul digunakan untuk Respons dinamik kepada permintaan pelanggan, mengawal maklumat yang dihantar kepada pengguna dan menjana respons secara dinamik, termasuk kod status, kandungan halaman web, dsb. Seterusnya, jadual digunakan untuk menyenaraikan maklumat yang boleh diperoleh oleh kelas Respons, seperti yang ditunjukkan dalam Jadual 10-2.
Jadual 10-2 Atribut biasa kelas Respons
Seterusnya, kami akan menggunakan kes untuk menunjukkan cara menggunakan modul permintaan untuk merangkak web Baidu halaman. Kod khusus adalah seperti berikut:
# 01 requests baidu import requests base_url = 'http://www.baidu.com' #发送GET请求 res = requests.get (base_url) print("响应状态码:{}".format(res.status_code))#获取响应状态码 print("编码方式:{}".format(res.encoding))#获取响应内容的编码方式 res.encoding = 'utf-8'#更新响应内容的编码方式为UIE-8 print("网页源代码:n{}".format(res.text)) #获取响应内容
Dalam kod di atas, baris 2 menggunakan import untuk mengimport modul permintaan baris 3 hingga 4 kod menghantar permintaan GET ke pelayan berdasarkan URL, dan gunakan res pembolehubah untuk menerima kandungan respons yang dikembalikan oleh pelayan; baris ke-5 hingga ke-6 kod mencetak kod status dan kaedah pengekodan kandungan respons; -8"; baris ke-8 kod mencetak kandungan respons. Jalankan program. Output program adalah seperti berikut:
响应状态码:200 编码方式:ISO-8859-1 网页源代码: <!DOCTYPE html> <!–-STATUS OK--><html> <head><meta http-equiv=content-type content=text/html; charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content= always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic. com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head> <body link=#0000cc>…省略N行…</body></html>
Perlu dinyatakan bahawa apabila menggunakan modul permintaan untuk merangkak halaman web, pelbagai pengecualian mungkin berlaku disebabkan oleh sebab seperti tiada sambungan rangkaian, kegagalan sambungan pelayan, dsb. Dua pengecualian yang paling biasa ialah URLError dan HTTPError Pengecualian rangkaian ini boleh ditangkap dan dikendalikan menggunakan penyataan try...except.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan modul Permintaan untuk merangkak halaman web?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!