Rumah >pembangunan bahagian belakang >Tutorial Python >Perangkak Python merangkak data halaman web dan menghuraikan data
Artikel ini membawakan anda pengetahuan yang berkaitan tentang Python terutamanya cara perangkak ular sawa merangkak data halaman web dan menghuraikan data untuk membantu anda menggunakan perangkak dengan lebih baik untuk menganalisis halaman web lihat, harap ia membantu semua orang.
[Cadangan berkaitan: Tutorial video Python3]
Perangkak web boleh menggantikan kerja manual dalam melakukan banyak perkara, seperti enjin carian Anda boleh juga merangkak gambar di laman web Sebagai contoh, sesetengah rakan merangkak semua gambar di laman web tertentu dan melayarinya bersama-sama Pada masa yang sama, perayap web juga boleh digunakan dalam bidang pelaburan kewangan maklumat kewangan dan Menjalankan analisis pelaburan, dsb.
Kadangkala, kami mungkin mempunyai beberapa laman web berita kegemaran, dan menyusahkan untuk membuka tapak web berita ini secara berasingan setiap kali untuk menyemak imbas. Pada masa ini, anda boleh menggunakan perangkak web untuk merangkak maklumat berita daripada berbilang tapak web berita ini dan membacanya bersama-sama.
Kadangkala, apabila kita menyemak imbas maklumat di web, kita akan dapati banyak iklan. Pada masa ini, anda juga boleh menggunakan perangkak untuk merangkak maklumat pada halaman web yang sepadan, supaya iklan ini boleh ditapis secara automatik untuk memudahkan pembacaan dan penggunaan maklumat.
Kadangkala, kita perlu melakukan pemasaran, jadi cara mencari pelanggan sasaran dan maklumat hubungan mereka adalah isu utama. Kami boleh mencari secara manual di Internet, tetapi ini akan menjadi sangat tidak cekap. Pada masa ini, kami boleh menggunakan perangkak untuk menetapkan peraturan yang sepadan dan secara automatik mengumpulkan maklumat hubungan pengguna sasaran dan data lain daripada Internet untuk kegunaan pemasaran kami.
Kadangkala, kami ingin menganalisis maklumat pengguna tapak web tertentu, seperti menganalisis aktiviti pengguna, bilangan komen, artikel popular dan maklumat lain laman web tersebut. Jika kami bukan pentadbir laman web, statistik manual akan menjadi satu projek yang sangat sukar. Pada masa ini, perangkak boleh digunakan untuk mengumpul data ini dengan mudah untuk analisis lanjut Semua operasi merangkak dilakukan secara automatik. Kami hanya perlu menulis perangkak yang sepadan dan mereka bentuk peraturan yang sepadan.
Selain itu, perangkak juga boleh mencapai banyak fungsi berkuasa. Ringkasnya, kemunculan crawler boleh menggantikan capaian manual ke halaman web pada tahap tertentu Oleh itu, operasi yang sebelum ini memerlukan capaian manual kepada maklumat Internet kini boleh diautomasikan menggunakan crawler, supaya maklumat yang berkesan dalam Internet dapat digunakan dengan lebih cekap. .
3. Pasang pustaka pihak ketigaDalam sistem Windows, buka antara muka cmd (command prompt), masukkan permintaan pemasangan pip dalam antara muka, dan tekan Enter untuk memasang. (Beri perhatian kepada sambungan rangkaian) Seperti yang ditunjukkan di bawah
Pemasangan selesai, seperti yang ditunjukkan dalam rajah
4. Crawl Taobao Homepage# 请求库 import requests # 用于解决爬取的数据格式化 import io import sys sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8') # 爬取的网页链接 r= requests.get("https://www.taobao.com/") # 类型 # print(type(r)) print(r.status_code) # 中文显示 # r.encoding='utf-8' r.encoding=None print(r.encoding) print(r.text) result = r.text5. Merangkak dan menghuraikan laman utama Taobao
# 请求库 import requests # 解析库 from bs4 import BeautifulSoup # 用于解决爬取的数据格式化 import io import sys sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8') # 爬取的网页链接 r= requests.get("https://www.taobao.com/") # 类型 # print(type(r)) print(r.status_code) # 中文显示 # r.encoding='utf-8' r.encoding=None print(r.encoding) print(r.text) result = r.text # 再次封装,获取具体标签内的内容 bs = BeautifulSoup(result,'html.parser') # 具体标签 print("解析后的数据") print(bs.span) a={} # 获取已爬取内容中的script标签内容 data=bs.find_all('script') # 获取已爬取内容中的td标签内容 data1=bs.find_all('td') # 循环打印输出 for i in data: a=i.text print(i.text,end='') for j in data1: print(j.text)Ringkasan
Jadi selepas mendapat data halaman web, simpannya sebagai mod teks setempat dan kemudian huraikannya (tidak perlu mengakses halaman web lagi).
[Cadangan berkaitan:
Tutorial video Python3Atas ialah kandungan terperinci Perangkak Python merangkak data halaman web dan menghuraikan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!