Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan daripada Halaman Web Menggunakan Python dan BeautifulSoup?

Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan daripada Halaman Web Menggunakan Python dan BeautifulSoup?

Linda Hamilton
Linda Hamiltonasal
2024-12-11 11:06:10624semak imbas

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

Mendapatkan Pautan daripada Halaman Web dengan Python dan BeautifulSoup

Artikel ini menunjukkan cara untuk mendapatkan semula pautan dari halaman web dan mengumpulkan alamat URLnya menggunakan Python dan BeautifulSoup perpustakaan.

Masalah:

Bagaimanakah anda mengekstrak URL pautan yang dibenamkan dalam halaman web menggunakan Python?

Penyelesaian:

Untuk mencapai matlamat ini, anda boleh menggunakan kelas SoupStrainer yang disediakan oleh BeautifulSoup. Coretan kod berikut menunjukkan proses:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

Kod ini mewujudkan sambungan ke halaman web tertentu, iaitu 'http://www.nytimes.com' dalam contoh. Menggunakan BeautifulSoup, ia menghuraikan respons HTML dan menggunakan penapis SoupStrainer('a'), yang memfokuskan pada teg 'a' (mewakili pautan) dalam halaman. Untuk setiap pautan yang ditemui, kod itu mendapatkan semula atribut 'href'nya, yang mengandungi alamat URL sebenar.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan daripada Halaman Web Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn