Rumah >pembangunan bahagian belakang >Tutorial Python >Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python

Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python

WBOY
WBOYke hadapan
2023-09-10 19:05:021124semak imbas

使用Python中的Beautiful Soup提取属性值

Untuk mengekstrak nilai atribut dengan Beautiful Soup, kita perlu menghuraikan dokumen HTML dan kemudian mengekstrak nilai atribut yang diperlukan. BeautifulSoup ialah perpustakaan Python untuk menghuraikan dokumen HTML dan XML. BeautifulSoup menyediakan pelbagai cara untuk mencari dan menavigasi pepohon hurai untuk mengekstrak data daripada dokumen dengan mudah. Dalam artikel ini, kami akan mengekstrak nilai atribut dengan bantuan Beautiful Soup dalam Python.

Algoritma

Anda boleh mengekstrak nilai atribut menggunakan sup cantik dalam Python dengan mengikut algoritma yang diberikan di bawah.

  • Gunakan kelas BeautifulSoup dalam perpustakaan bs4 untuk menghuraikan dokumen HTML.

  • Gunakan kaedah BeautifulSoup yang sesuai (seperti find() atau find_all()) untuk mencari elemen HTML yang mengandungi atribut yang ingin anda ekstrak.

  • Gunakan pernyataan bersyarat atau kaedah has_attr() untuk menyemak sama ada atribut wujud pada elemen.

  • Jika atribut wujud, ekstrak nilainya menggunakan kurungan segi empat sama ([]) dan nama atribut sebagai kunci.

  • Jika harta itu tidak wujud, sila uruskan ralat dengan sewajarnya.

Pasang Sup Cantik

Sebelum menggunakan perpustakaan Beautiful Soup, anda perlu memasangnya menggunakan pengurus pakej Python, arahan pip. Untuk memasang Beautiful Soup, masukkan arahan berikut dalam terminal atau command prompt.

pip install beautifulsoup4

Ekstrak nilai atribut

Untuk mengekstrak nilai atribut daripada teg HTML, kita perlu menggunakan BeautifulSoup terlebih dahulu untuk menghuraikan dokumen HTML. Kemudian gunakan kaedah Beautiful Soup untuk mengekstrak nilai atribut tag tertentu dalam dokumen HTML.

Contoh 1: Ekstrak atribut href menggunakan kaedah find() dan kurungan segi empat sama

Dalam contoh di bawah, kami mula-mula mencipta dokumen HTML dan menghantarnya sebagai rentetan kepada pembina Beautiful Soup dengan jenis parser html.parser. Seterusnya, kami mencari teg "a" menggunakan kaedah find() objek sup. Ini akan mengembalikan kejadian pertama teg "a" dalam dokumen HTML. Akhir sekali, kami mengekstrak nilai atribut href daripada teg "a" menggunakan notasi kurungan segi empat sama. Ini akan mengembalikan nilai atribut href sebagai rentetan.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find the 'a' tag
a_tag = soup.find('a')

# Extract the value of the 'href' attribute
href_value = a_tag['href']

print(href_value)

Output

https://www.google.com

Contoh 2: Gunakan attr untuk mencari elemen dengan atribut khusus

Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg `a` dengan atribut href. Parameter `attrs` digunakan untuk menentukan atribut yang kami cari. `{‘href’: True}` menyatakan bahawa kita ingin mencari elemen dengan atribut href bagi sebarang nilai.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
   <a href="https://www.python.org">Python</a>
   <a>No Href</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'a' tags with an 'href' attribute
a_tags_with_href = soup.find_all('a', attrs={'href': True})
for tag in a_tags_with_href:
   print(tag['href'])

Output

https://www.google.com
https://www.python.org

Contoh 3: Gunakan kaedah find_all() untuk mencari semua kejadian unsur

Kadangkala anda mungkin ingin mencari semua kemunculan elemen HTML pada halaman web. Anda boleh menggunakan kaedah find_all() untuk mencapai ini. Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg div yang mempunyai kelas kontena. Kemudian kami mengulangi setiap teg div dan mencari teg h1 dan p di dalamnya.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'div' tags with class='container'
div_tags = soup.find_all('div', class_='container')
for div in div_tags:
   h1 = div.find('h1')
   p = div.find('p')
   print(h1.text, p.text)

Output

Heading 1 Paragraph 1
Heading 2 Paragraph 2

Contoh 4: Menggunakan select() untuk mencari elemen melalui pemilih CSS

Dalam contoh di bawah, kami menggunakan kaedah select() untuk mencari semua teg h1 di dalam teg div dengan bekas kelas. Pemilih CSS 'div.container h1' digunakan untuk mencapai ini. . digunakan untuk mewakili nama kelas, dan ruang digunakan untuk mewakili pemilih keturunan.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1>Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1>Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'h1' tags inside a 'div' tag with class='container'
h1_tags = soup.select('div.container h1')
for h1 in h1_tags:
   print(h1.text)

Output

Heading 1
Heading 2

Kesimpulan

Dalam artikel ini, kami membincangkan cara mengekstrak nilai atribut daripada dokumen HTML menggunakan perpustakaan Beautiful Soup dalam Python. Dengan menggunakan kaedah yang disediakan oleh BeautifulSoup, kami boleh mengekstrak data yang diperlukan dengan mudah daripada dokumen HTML dan XML.

Atas ialah kandungan terperinci Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:tutorialspoint.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam