Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk melaksanakan program perangkak mudah dalam Python

Bagaimana untuk melaksanakan program perangkak mudah dalam Python

王林
王林asal
2023-10-20 14:19:46827semak imbas

Bagaimana untuk melaksanakan program perangkak mudah dalam Python

Cara melaksanakan program perangkak mudah dalam Python

Dengan perkembangan Internet, data telah menjadi salah satu sumber paling berharga dalam masyarakat hari ini. Program crawler telah menjadi salah satu alat penting untuk mendapatkan data Internet. Artikel ini akan memperkenalkan cara melaksanakan program perangkak mudah dalam Python dan memberikan contoh kod khusus.

  1. Tentukan tapak web sasaran
    Sebelum anda mula menulis program crawler, anda mesti terlebih dahulu menentukan tapak web sasaran yang anda ingin crawl. Sebagai contoh, kami memilih untuk merangkak tapak web berita dan mendapatkan artikel berita daripadanya.
  2. Import perpustakaan yang diperlukan
    Terdapat banyak perpustakaan pihak ketiga yang sangat baik dalam Python yang boleh digunakan untuk menulis program perangkak, seperti permintaan dan BeautifulSoup. Sebelum menulis program perangkak, import perpustakaan yang diperlukan ini.
import requests
from bs4 import BeautifulSoup
  1. Hantar permintaan HTTP dan huraikan HTML
    Gunakan perpustakaan permintaan untuk menghantar permintaan HTTP ke tapak web sasaran dan dapatkan kod HTML halaman web. Kemudian gunakan perpustakaan BeautifulSoup untuk menghuraikan kod HTML dan mengekstrak data yang kami perlukan.
url = "目标网站的URL"
response = requests.get(url)
html = response.text

soup = BeautifulSoup(html, "html.parser")
  1. Ekstrak data
    Dengan menganalisis struktur HTML tapak web sasaran, tentukan lokasi data yang kami perlukan dan ekstraknya menggunakan kaedah yang disediakan oleh perpustakaan BeautifulSoup.
# 示例:提取新闻标题和链接
news_list = soup.find_all("a", class_="news-title")  # 假设新闻标题使用CSS类名 "news-title"

for news in news_list:
    title = news.text
    link = news["href"]
    print(title, link)
  1. Data storan
    Simpan data yang diekstrak ke dalam fail atau pangkalan data untuk analisis dan aplikasi data seterusnya. . Pada masa yang sama, kami boleh menetapkan bilangan rangkak untuk mengelak daripada merangkak terlalu banyak data.
# 示例:将数据存储到文件
with open("news.txt", "w", encoding="utf-8") as f:
    for news in news_list:
        title = news.text
        link = news["href"]
        f.write(f"{title}    {link}
")
    Di atas adalah proses pelaksanaan program crawler yang mudah. Melalui contoh ini, anda boleh belajar cara menggunakan Python untuk menulis program perangkak asas untuk mendapatkan data daripada tapak web sasaran dan menyimpannya dalam fail. Sudah tentu, fungsi program crawler adalah lebih daripada ini, dan anda boleh mengembangkan dan menambah baiknya mengikut keperluan anda sendiri.

  1. Pada masa yang sama, perlu diingatkan bahawa semasa menulis program perangkak, anda perlu mematuhi norma undang-undang dan etika, menghormati fail robots.txt tapak web, dan mengelakkan beban yang tidak perlu pada tapak web sasaran.

Atas ialah kandungan terperinci Bagaimana untuk melaksanakan program perangkak mudah dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn