Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python-Tutorial Python-php.cn

Rumah

pembangunan bahagian belakang

Tutorial Python

Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Sep 10, 2023 pm 07:05 PM

使用Python中的Beautiful Soup提取属性值

Untuk mengekstrak nilai atribut dengan Beautiful Soup, kita perlu menghuraikan dokumen HTML dan kemudian mengekstrak nilai atribut yang diperlukan. BeautifulSoup ialah perpustakaan Python untuk menghuraikan dokumen HTML dan XML. BeautifulSoup menyediakan pelbagai cara untuk mencari dan menavigasi pepohon hurai untuk mengekstrak data daripada dokumen dengan mudah. Dalam artikel ini, kami akan mengekstrak nilai atribut dengan bantuan Beautiful Soup dalam Python.

Algoritma

Anda boleh mengekstrak nilai atribut menggunakan sup cantik dalam Python dengan mengikut algoritma yang diberikan di bawah.

Gunakan kelas BeautifulSoup dalam perpustakaan bs4 untuk menghuraikan dokumen HTML.
Gunakan kaedah BeautifulSoup yang sesuai (seperti find() atau find_all()) untuk mencari elemen HTML yang mengandungi atribut yang ingin anda ekstrak.
Gunakan pernyataan bersyarat atau kaedah has_attr() untuk menyemak sama ada atribut wujud pada elemen.
Jika atribut wujud, ekstrak nilainya menggunakan kurungan segi empat sama ([]) dan nama atribut sebagai kunci.
Jika harta itu tidak wujud, sila uruskan ralat dengan sewajarnya.

Pasang Sup Cantik

Sebelum menggunakan perpustakaan Beautiful Soup, anda perlu memasangnya menggunakan pengurus pakej Python, arahan pip. Untuk memasang Beautiful Soup, masukkan arahan berikut dalam terminal atau command prompt.

pip install beautifulsoup4

Ekstrak nilai atribut

Untuk mengekstrak nilai atribut daripada teg HTML, kita perlu menggunakan BeautifulSoup terlebih dahulu untuk menghuraikan dokumen HTML. Kemudian gunakan kaedah Beautiful Soup untuk mengekstrak nilai atribut tag tertentu dalam dokumen HTML.

Contoh 1: Ekstrak atribut href menggunakan kaedah find() dan kurungan segi empat sama

Dalam contoh di bawah, kami mula-mula mencipta dokumen HTML dan menghantarnya sebagai rentetan kepada pembina Beautiful Soup dengan jenis parser html.parser. Seterusnya, kami mencari teg "a" menggunakan kaedah find() objek sup. Ini akan mengembalikan kejadian pertama teg "a" dalam dokumen HTML. Akhir sekali, kami mengekstrak nilai atribut href daripada teg "a" menggunakan notasi kurungan segi empat sama. Ini akan mengembalikan nilai atribut href sebagai rentetan.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find the 'a' tag
a_tag = soup.find('a')

# Extract the value of the 'href' attribute
href_value = a_tag['href']

print(href_value)

Output

https://www.google.com

Contoh 2: Gunakan attr untuk mencari elemen dengan atribut khusus

Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg `a` dengan atribut href. Parameter `attrs` digunakan untuk menentukan atribut yang kami cari. `{‘href’: True}` menyatakan bahawa kita ingin mencari elemen dengan atribut href bagi sebarang nilai.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <a href="https://www.google.com">Google</a>
   <a href="https://www.python.org">Python</a>
   <a>No Href</a>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'a' tags with an 'href' attribute
a_tags_with_href = soup.find_all('a', attrs={'href': True})
for tag in a_tags_with_href:
   print(tag['href'])

Output

https://www.google.com
https://www.python.org

Contoh 3: Gunakan kaedah find_all() untuk mencari semua kejadian unsur

Kadangkala anda mungkin ingin mencari semua kemunculan elemen HTML pada halaman web. Anda boleh menggunakan kaedah find_all() untuk mencapai ini. Dalam contoh di bawah, kami menggunakan kaedah find_all() untuk mencari semua teg div yang mempunyai kelas kontena. Kemudian kami mengulangi setiap teg div dan mencari teg h1 dan p di dalamnya.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1 id="Heading">Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1 id="Heading">Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'div' tags with class='container'
div_tags = soup.find_all('div', class_='container')
for div in div_tags:
   h1 = div.find('h1')
   p = div.find('p')
   print(h1.text, p.text)

Output

Heading 1 Paragraph 1
Heading 2 Paragraph 2

Contoh 4: Menggunakan select() untuk mencari elemen melalui pemilih CSS

Dalam contoh di bawah, kami menggunakan kaedah select() untuk mencari semua teg h1 di dalam teg div dengan bekas kelas. Pemilih CSS 'div.container h1' digunakan untuk mencapai ini. . digunakan untuk mewakili nama kelas, dan ruang digunakan untuk mewakili pemilih keturunan.

from bs4 import BeautifulSoup

# Parse the HTML document
html_doc = """
<html>
<body>
   <div class="container">
      <h1 id="Heading">Heading 1</h1>
      <p>Paragraph 1</p>
   </div>
   <div class="container">
      <h1 id="Heading">Heading 2</h1>
      <p>Paragraph 2</p>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'html.parser')

# Find all 'h1' tags inside a 'div' tag with class='container'
h1_tags = soup.select('div.container h1')
for h1 in h1_tags:
   print(h1.text)

Output

Heading 1
Heading 2

Kesimpulan

Dalam artikel ini, kami membincangkan cara mengekstrak nilai atribut daripada dokumen HTML menggunakan perpustakaan Beautiful Soup dalam Python. Dengan menggunakan kaedah yang disediakan oleh BeautifulSoup, kami boleh mengekstrak data yang diperlukan dengan mudah daripada dokumen HTML dan XML.

Atas ialah kandungan terperinci Ekstrak nilai atribut menggunakan Beautiful Soup dalam Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:tutorialspoint. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Python dan Masa: Memanfaatkan masa belajar andaApr 14, 2025 am 12:02 AM

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python: Permainan, GUI, dan banyak lagiApr 13, 2025 am 12:14 AM

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

Python vs C: Aplikasi dan kes penggunaan dibandingkanApr 12, 2025 am 12:01 AM

Python sesuai untuk sains data, pembangunan web dan tugas automasi, manakala C sesuai untuk pengaturcaraan sistem, pembangunan permainan dan sistem tertanam. Python terkenal dengan kesederhanaan dan ekosistem yang kuat, manakala C dikenali dengan keupayaan kawalan dan keupayaan kawalan yang mendasari.

Rancangan Python 2 jam: Pendekatan yang realistikApr 11, 2025 am 12:04 AM

Anda boleh mempelajari konsep pengaturcaraan asas dan kemahiran Python dalam masa 2 jam. 1. Belajar Pembolehubah dan Jenis Data, 2.

Python: meneroka aplikasi utamanyaApr 10, 2025 am 09:41 AM

Python digunakan secara meluas dalam bidang pembangunan web, sains data, pembelajaran mesin, automasi dan skrip. 1) Dalam pembangunan web, kerangka Django dan Flask memudahkan proses pembangunan. 2) Dalam bidang sains data dan pembelajaran mesin, numpy, panda, scikit-learn dan perpustakaan tensorflow memberikan sokongan yang kuat. 3) Dari segi automasi dan skrip, Python sesuai untuk tugas -tugas seperti ujian automatik dan pengurusan sistem.

Berapa banyak python yang boleh anda pelajari dalam 2 jam?Apr 09, 2025 pm 04:33 PM

Anda boleh mempelajari asas -asas Python dalam masa dua jam. 1. Belajar pembolehubah dan jenis data, 2. Struktur kawalan induk seperti jika pernyataan dan gelung, 3 memahami definisi dan penggunaan fungsi. Ini akan membantu anda mula menulis program python mudah.

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam Kaedah Projek dan Masalah Dikemukakan Dalam masa 10 Jam?Apr 02, 2025 am 07:18 AM

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Bagaimana untuk mengelakkan dikesan oleh penyemak imbas apabila menggunakan fiddler di mana-mana untuk membaca lelaki-dalam-tengah?Apr 02, 2025 am 07:15 AM

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...

See all articles