Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk mengekstrak atribut \'href\' menggunakan BeautifulSoup dalam Python?

Bagaimana untuk mengekstrak atribut \'href\' menggunakan BeautifulSoup dalam Python?

DDD
DDDasal
2024-10-28 21:42:02279semak imbas

How to extract

Mengekstrak Atribut HREF dengan BeautifulSoup

Dalam senario ini, anda ingin mengekstrak atribut href "some_url" daripada kandungan HTML berikut:

<code class="html"><a href="some_url">next</a>
<span class="class">...</span></code>

Menggunakan Kaedah find_all() BeautifulSoup

Untuk mendapatkan semula atribut khusus ini, gunakan kaedah find_all() seperti berikut:

<code class="python">from bs4 import BeautifulSoup

html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''

soup = BeautifulSoup(html)

for a in soup.find_all('a', href=True):
    print("Found the URL:", a['href'])</code>

Keserasian Python 2 hingga Python 3

Perhatikan bahawa kod ini berfungsi untuk kedua-dua Python 2 dan Python 3. Walau bagaimanapun, dalam versi BeautifulSoup yang lebih lama (sebelum versi 4), kaedah find_all() dinamakan findAll.

Mengambil semula Semua Teg dengan Atribut HREF

Jika anda ingin mendapatkan semula semua teg yang mempunyai atribut href, tanpa mengira nama tegnya, tinggalkan sahaja parameter nama tag:

<code class="python">href_tags = soup.find_all(href=True)</code>

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak atribut \'href\' menggunakan BeautifulSoup dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn