Rumah >pembangunan bahagian belakang >Tutorial Python >Perangkak Python merangkak data halaman web dan menghuraikan data

Perangkak Python merangkak data halaman web dan menghuraikan data

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBke hadapan
2022-08-15 18:25:467793semak imbas

Artikel ini membawakan anda pengetahuan yang berkaitan tentang Python terutamanya cara perangkak ular sawa merangkak data halaman web dan menghuraikan data untuk membantu anda menggunakan perangkak dengan lebih baik untuk menganalisis halaman web lihat, harap ia membantu semua orang.

Perangkak Python merangkak data halaman web dan menghuraikan data

[Cadangan berkaitan: Tutorial video Python3]

1 >Perangkak web (juga dikenali sebagai labah-labah web dan robot) mensimulasikan pelanggan menghantar permintaan rangkaian dan menerima respons permintaan Ia adalah program yang menangkap maklumat Internet secara automatik mengikut peraturan tertentu.

Selagi pelayar boleh melakukan apa sahaja, pada dasarnya, perangkak boleh melakukannya.


2. Fungsi perangkak web

Perangkak web boleh menggantikan kerja manual dalam melakukan banyak perkara, seperti enjin carian Anda boleh juga merangkak gambar di laman web Sebagai contoh, sesetengah rakan merangkak semua gambar di laman web tertentu dan melayarinya bersama-sama Pada masa yang sama, perayap web juga boleh digunakan dalam bidang pelaburan kewangan maklumat kewangan dan Menjalankan analisis pelaburan, dsb.

Kadangkala, kami mungkin mempunyai beberapa laman web berita kegemaran, dan menyusahkan untuk membuka tapak web berita ini secara berasingan setiap kali untuk menyemak imbas. Pada masa ini, anda boleh menggunakan perangkak web untuk merangkak maklumat berita daripada berbilang tapak web berita ini dan membacanya bersama-sama.

Kadangkala, apabila kita menyemak imbas maklumat di web, kita akan dapati banyak iklan. Pada masa ini, anda juga boleh menggunakan perangkak untuk merangkak maklumat pada halaman web yang sepadan, supaya iklan ini boleh ditapis secara automatik untuk memudahkan pembacaan dan penggunaan maklumat.

Kadangkala, kita perlu melakukan pemasaran, jadi cara mencari pelanggan sasaran dan maklumat hubungan mereka adalah isu utama. Kami boleh mencari secara manual di Internet, tetapi ini akan menjadi sangat tidak cekap. Pada masa ini, kami boleh menggunakan perangkak untuk menetapkan peraturan yang sepadan dan secara automatik mengumpulkan maklumat hubungan pengguna sasaran dan data lain daripada Internet untuk kegunaan pemasaran kami.

Kadangkala, kami ingin menganalisis maklumat pengguna tapak web tertentu, seperti menganalisis aktiviti pengguna, bilangan komen, artikel popular dan maklumat lain laman web tersebut. Jika kami bukan pentadbir laman web, statistik manual akan menjadi satu projek yang sangat sukar. Pada masa ini, perangkak boleh digunakan untuk mengumpul data ini dengan mudah untuk analisis lanjut Semua operasi merangkak dilakukan secara automatik. Kami hanya perlu menulis perangkak yang sepadan dan mereka bentuk peraturan yang sepadan.

Selain itu, perangkak juga boleh mencapai banyak fungsi berkuasa. Ringkasnya, kemunculan crawler boleh menggantikan capaian manual ke halaman web pada tahap tertentu Oleh itu, operasi yang sebelum ini memerlukan capaian manual kepada maklumat Internet kini boleh diautomasikan menggunakan crawler, supaya maklumat yang berkesan dalam Internet dapat digunakan dengan lebih cekap. .

3. Pasang pustaka pihak ketiga

Sebelum merangkak dan menghuraikan data, anda perlu memuat turun dan memasang permintaan perpustakaan pihak ketiga dalam persekitaran berjalan Python.

Dalam sistem Windows, buka antara muka cmd (command prompt), masukkan permintaan pemasangan pip dalam antara muka, dan tekan Enter untuk memasang. (Beri perhatian kepada sambungan rangkaian) Seperti yang ditunjukkan di bawah

Pemasangan selesai, seperti yang ditunjukkan dalam rajah

4. Crawl Taobao Homepage

Hasil larian adalah seperti yang ditunjukkan dalam rajah
# 请求库
import requests
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text

5. Merangkak dan menghuraikan laman utama Taobao

Hasil operasi adalah seperti yang ditunjukkan dalam rajah
# 请求库
import requests
# 解析库
from bs4 import BeautifulSoup
# 用于解决爬取的数据格式化
import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')
# 爬取的网页链接
r= requests.get("https://www.taobao.com/")
# 类型
# print(type(r))
print(r.status_code)
# 中文显示
# r.encoding='utf-8'
r.encoding=None
print(r.encoding)
print(r.text)
result = r.text
# 再次封装,获取具体标签内的内容
bs = BeautifulSoup(result,'html.parser')
# 具体标签
print("解析后的数据")
print(bs.span)
a={}
# 获取已爬取内容中的script标签内容
data=bs.find_all('script')
# 获取已爬取内容中的td标签内容
data1=bs.find_all('td')
# 循环打印输出
for i in data:
 a=i.text
 print(i.text,end='')
 for j in data1:
  print(j.text)

Ringkasan

6 Merangkak kod halaman web Jangan kerap mengendalikannya, apatah lagi menetapkannya kepada mod gelung tak terhingga (setiap merangkak adalah akses kepada halaman web, operasi yang kerap akan menyebabkan sistem ranap, dan anda akan dipertanggungjawabkan di sisi undang-undang).

Jadi selepas mendapat data halaman web, simpannya sebagai mod teks setempat dan kemudian huraikannya (tidak perlu mengakses halaman web lagi).

[Cadangan berkaitan:

Tutorial video Python3

]

Atas ialah kandungan terperinci Perangkak Python merangkak data halaman web dan menghuraikan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:jb51.net. Jika ada pelanggaran, sila hubungi admin@php.cn Padam