Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan daripada Halaman Web Menggunakan Python dan BeautifulSoup?
Mendapatkan Pautan daripada Halaman Web dengan Python dan BeautifulSoup
Artikel ini menunjukkan cara untuk mendapatkan semula pautan dari halaman web dan mengumpulkan alamat URLnya menggunakan Python dan BeautifulSoup perpustakaan.
Masalah:
Bagaimanakah anda mengekstrak URL pautan yang dibenamkan dalam halaman web menggunakan Python?
Penyelesaian:
Untuk mencapai matlamat ini, anda boleh menggunakan kelas SoupStrainer yang disediakan oleh BeautifulSoup. Coretan kod berikut menunjukkan proses:
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Kod ini mewujudkan sambungan ke halaman web tertentu, iaitu 'http://www.nytimes.com' dalam contoh. Menggunakan BeautifulSoup, ia menghuraikan respons HTML dan menggunakan penapis SoupStrainer('a'), yang memfokuskan pada teg 'a' (mewakili pautan) dalam halaman. Untuk setiap pautan yang ditemui, kod itu mendapatkan semula atribut 'href'nya, yang mengandungi alamat URL sebenar.
Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Mengeluarkan Hiperpautan daripada Halaman Web Menggunakan Python dan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!