cari
Rumahpembangunan bahagian belakangTutorial PythonBagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Artikel ini menerangkan cara menggunakan sup yang indah, perpustakaan python, untuk menghuraikan html. Ia memperincikan kaedah biasa seperti mencari (), find_all (), pilih (), dan get_text () untuk pengekstrakan data, pengendalian struktur dan kesilapan HTML yang pelbagai, dan alternatif (sel

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?

Sup Cantik adalah perpustakaan Python yang direka untuk menghuraikan dokumen HTML dan XML. Ia mewujudkan pokok parse dari HTML yang diberikan, membolehkan anda dengan mudah menavigasi, mencari, dan mengubah suai data. Untuk menggunakannya, anda perlu memasangnya menggunakan PIP: pip install beautifulsoup4 . Kemudian, anda boleh mengimportnya ke dalam skrip Python anda dan menggunakannya untuk menghuraikan kandungan HTML. Inilah contoh asas:

 <code class="python">from bs4 import BeautifulSoup import requests # Fetch the HTML content (replace with your URL) url = "https://www.example.com" response = requests.get(url) response.raise_for_status() # Raise HTTPError for bad responses (4xx or 5xx) html_content = response.content # Parse the HTML soup = BeautifulSoup(html_content, "html.parser") # Now you can use soup to navigate and extract data print(soup.title) # Prints the title tag print(soup.find_all("p")) # Prints all paragraph tags</code>

Kod ini pertama kali mengambil HTML dari URL menggunakan Perpustakaan requests (anda perlu memasangnya secara berasingan dengan pip install requests ). Ia kemudian menggunakan pembina BeautifulSoup untuk menghuraikan kandungan HTML, menyatakan "html.parser" sebagai parser. Akhirnya, ia menunjukkan mengakses tag <title></title> dan mencari semua <p></p> tag. Ingatlah untuk mengendalikan pengecualian yang berpotensi seperti kesilapan rangkaian ( requests.exceptions.RequestException ) dengan sewajarnya dalam persekitaran pengeluaran.

Apakah kaedah sup yang paling biasa untuk mengekstrak data dari HTML?

Sup yang indah menawarkan satu set kaedah yang kaya untuk menavigasi dan mengekstrak data. Sebahagian yang paling biasa termasuk:

  • find() dan find_all() : Ini adalah kerja -kerja sup yang indah. find() Mengembalikan tag pertama yang sepadan dengan kriteria yang ditentukan, manakala find_all() mengembalikan senarai semua tag yang sepadan. Kriteria boleh menjadi nama tag (misalnya, "p", "a"), atribut (misalnya, {"class": "my-class", "id": "my-id"}), atau gabungan kedua-duanya. Anda juga boleh menggunakan ungkapan biasa untuk padanan yang lebih kompleks.
  • select() : Kaedah ini menggunakan pemilih CSS untuk mencari tag. Ini adalah cara yang kuat dan ringkas untuk menargetkan unsur -unsur tertentu, terutamanya apabila berurusan dengan struktur HTML yang kompleks. Sebagai contoh, soup.select(".my-class p") akan mendapati semua <p></p> tag dalam elemen yang mempunyai kelas "my-class".
  • get_text() : Kaedah ini mengekstrak kandungan teks tag dan keturunannya. Ia tidak ternilai untuk mendapatkan teks sebenar dari elemen HTML.
  • attrs : Atribut ini menyediakan akses kepada atribut tag sebagai kamus. Sebagai contoh, tag["href"] akan mengembalikan nilai atribut href daripada tag <a></a> .
  • Navigasi: Sup yang indah membolehkan navigasi mudah melalui pokok parse menggunakan kaedah seperti .parent , .children , .next_sibling , .previous_sibling , dan lain -lain. Kaedah ini membolehkan melintasi struktur HTML untuk mencari unsur -unsur yang berkaitan.

Berikut adalah contoh yang menunjukkan find() , find_all() , dan get_text() :

 <code class="python"># ... (previous code to get soup) ... first_paragraph = soup.find("p") all_paragraphs = soup.find_all("p") first_paragraph_text = first_paragraph.get_text() print(f"First paragraph: {first_paragraph_text}") print(f"Number of paragraphs: {len(all_paragraphs)}")</code>

Bagaimanakah saya dapat mengendalikan struktur HTML yang berbeza dan kesilapan yang berpotensi apabila menghuraikan dengan sup yang indah?

HTML boleh menjadi kemas dan tidak konsisten. Untuk menangani variasi dan kesilapan yang berpotensi, pertimbangkan strategi ini:

  • Parsing yang teguh: Gunakan parser yang memaafkan seperti "html.parser" (lalai) yang dibina ke dalam python. Lebih baik mengendalikan HTML yang cacat daripada parser lain seperti "LXML" (yang lebih cepat tetapi lebih ketat).
  • Pengendalian Ralat: Balut kod parsing anda dalam try...except blok untuk menangkap pengecualian seperti AttributeError (ketika cuba mengakses atribut yang tidak wujud) atau TypeError (ketika berurusan dengan jenis data yang tidak dijangka).
  • Pemilihan fleksibel: Gunakan pemilih CSS atau padanan atribut fleksibel dalam find() dan find_all() untuk menampung variasi dalam struktur HTML. Daripada bergantung pada nama kelas atau ID tertentu yang mungkin berubah, pertimbangkan untuk menggunakan lebih banyak pemilih atau atribut umum.
  • Semak kewujudan: Sebelum mengakses atribut atau elemen kanak -kanak, selalu periksa sama ada elemen wujud untuk mengelakkan AttributeError . Gunakan pernyataan bersyarat (contohnya, if element: .
  • Pembersihan Data: Selepas pengekstrakan, bersihkan data untuk mengendalikan ketidakkonsistenan seperti ruang kosong tambahan, aksara baru, atau entiti HTML. Kaedah strip() Python dan ekspresi tetap berguna untuk ini.

Contoh dengan pengendalian ralat:

 <code class="python">try: title = soup.find("title").get_text().strip() print(f"Title: {title}") except AttributeError: print("Title tag not found.")</code>

Bolehkah sup cantik mengendalikan kandungan yang diberikan oleh JavaScript, dan jika tidak, apakah alternatifnya?

Tidak, sup yang indah tidak dapat mengendalikan kandungan yang diberikan oleh JavaScript secara langsung. Sup cantik berfungsi dengan HTML yang pada mulanya dimuat turun; Ia tidak melaksanakan JavaScript. JavaScript menjadikan kandungan secara dinamik selepas beban halaman, jadi sup yang indah hanya melihat HTML statik awal.

Untuk mengendalikan kandungan yang diberikan oleh JavaScript, anda memerlukan alternatif:

  • Selenium: Selenium adalah alat automasi penyemak imbas yang dapat mengawal penyemak imbas sebenar (seperti Chrome atau Firefox). Ia memuatkan halaman sepenuhnya, membolehkan JavaScript untuk dilaksanakan, dan kemudian anda boleh menggunakan sup yang indah untuk menghuraikan HTML yang dihasilkan dari DOM pelayar. Ini adalah kaedah yang kuat tetapi lebih perlahan.
  • Penulis drama: Sama seperti Selenium, Playwright adalah perpustakaan Node.js (dengan pengikat Python) untuk automasi web. Ia sering lebih cepat dan lebih moden daripada selenium.
  • Pelayar tanpa kepala (dengan selenium atau penulis drama): Jalankan penyemak imbas dalam mod tanpa kepala (tanpa tetingkap yang kelihatan) untuk meningkatkan kecekapan.
  • Splash (Recrecated): Splash adalah perkhidmatan yang popular untuk memberikan JavaScript, tetapi kini ditolak.
  • Perkhidmatan rendering lain: Beberapa perkhidmatan berasaskan awan menawarkan keupayaan rendering JavaScript. Ini biasanya perkhidmatan yang dibayar tetapi boleh menjadi mudah untuk mengikis berskala besar.

Ingat bahawa laman web mengikis harus sentiasa menghormati fail robots.txt laman web dan terma perkhidmatan. Pengikis yang berlebihan boleh membebankan pelayan dan membawa kepada alamat IP anda disekat.

Atas ialah kandungan terperinci Bagaimana saya menggunakan sup yang indah untuk menghuraikan html?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Model pelaksanaan Python: disusun, ditafsirkan, atau kedua -duanya?Model pelaksanaan Python: disusun, ditafsirkan, atau kedua -duanya?May 10, 2025 am 12:04 AM

Pythonisbothompiledandintinterpreted.whenyourunapythonscript, itisfirstompiledintobytecode, yang manaThenexecutedbythonvirtualmachine (pvm).

Adakah Python dilaksanakan garis mengikut baris?Adakah Python dilaksanakan garis mengikut baris?May 10, 2025 am 12:03 AM

Python bukan pelaksanaan line-by-line, tetapi dioptimumkan dan pelaksanaan bersyarat berdasarkan mekanisme penterjemah. Jurubahasa menukarkan kod ke bytecode, dilaksanakan oleh PVM, dan mungkin pretompile ekspresi malar atau mengoptimumkan gelung. Memahami mekanisme ini membantu mengoptimumkan kod dan meningkatkan kecekapan.

Apakah alternatif untuk menggabungkan dua senarai dalam Python?Apakah alternatif untuk menggabungkan dua senarai dalam Python?May 09, 2025 am 12:16 AM

Terdapat banyak kaedah untuk menyambungkan dua senarai dalam Python: 1. Pengendali menggunakan, yang mudah tetapi tidak cekap dalam senarai besar; 2. Gunakan kaedah Extend, yang cekap tetapi akan mengubah suai senarai asal; 3. Gunakan operator =, yang kedua -duanya cekap dan boleh dibaca; 4. Gunakan fungsi itertools.Chain, yang efisien memori tetapi memerlukan import tambahan; 5. Penggunaan senarai parsing, yang elegan tetapi mungkin terlalu kompleks. Kaedah pemilihan harus berdasarkan konteks dan keperluan kod.

Python: Cara yang cekap untuk menggabungkan dua senaraiPython: Cara yang cekap untuk menggabungkan dua senaraiMay 09, 2025 am 12:15 AM

Terdapat banyak cara untuk menggabungkan senarai Python: 1. Menggunakan pengendali, yang mudah tetapi tidak memori yang cekap untuk senarai besar; 2. Gunakan kaedah Extend, yang cekap tetapi akan mengubah suai senarai asal; 3. Gunakan itertools.chain, yang sesuai untuk set data yang besar; 4. Penggunaan * pengendali, bergabung dengan senarai kecil hingga sederhana dalam satu baris kod; 5. Gunakan numpy.concatenate, yang sesuai untuk set data dan senario yang besar dengan keperluan prestasi tinggi; 6. Gunakan kaedah tambahan, yang sesuai untuk senarai kecil tetapi tidak cekap. Apabila memilih kaedah, anda perlu mempertimbangkan saiz senarai dan senario aplikasi.

Disusun vs bahasa yang ditafsirkan: kebaikan dan keburukanDisusun vs bahasa yang ditafsirkan: kebaikan dan keburukanMay 09, 2025 am 12:06 AM

Compiledlanguagesofferspeedandsecurity, whilintpretedLanguagesprovideoeSeAfuseAndPortability.1) compiledLanguageslikec arefasterandsecureButhavelongerDevelopmentCyclesandplatformdependency.2) interpretedLanguagePyePyhonareeAseAreeAseaneAseaneSioSioSioSioSioSioSioSioSioSioSioSioSioSioSioSioSioSeaneaneAseaneaneAseaneaneAdoSioSiAdaSiAdoeSeaneAdoeSeaneAdoeSeanDoReAseanDOREPYHOREADOREB

Python: Untuk dan sementara gelung, panduan paling lengkapPython: Untuk dan sementara gelung, panduan paling lengkapMay 09, 2025 am 12:05 AM

Di Python, A untuk gelung digunakan untuk melintasi objek yang boleh dimakan, dan gelung sementara digunakan untuk melakukan operasi berulang kali apabila keadaan berpuas hati. 1) Untuk contoh gelung: melintasi senarai dan mencetak unsur -unsur. 2) Walaupun contoh gelung: Tebak permainan nombor sehingga anda rasa betul. Menguasai prinsip kitaran dan teknik pengoptimuman dapat meningkatkan kecekapan dan kebolehpercayaan kod.

Python Concatenate menyenaraikan ke dalam rentetanPython Concatenate menyenaraikan ke dalam rentetanMay 09, 2025 am 12:02 AM

Untuk menggabungkan senarai ke dalam rentetan, menggunakan kaedah Join () dalam Python adalah pilihan terbaik. 1) Gunakan kaedah Join () untuk menggabungkan elemen senarai ke dalam rentetan, seperti '' .join (my_list). 2) Untuk senarai yang mengandungi nombor, tukar peta (str, nombor) ke dalam rentetan sebelum menggabungkan. 3) Anda boleh menggunakan ekspresi penjana untuk pemformatan kompleks, seperti ','. Sertai (f '({Fruit})' forfruitinFruits). 4) Apabila memproses jenis data bercampur, gunakan peta (str, mixed_list) untuk memastikan semua elemen dapat ditukar menjadi rentetan. 5) Untuk senarai besar, gunakan '' .join (large_li

Pendekatan Hibrid Python: Kompilasi dan Tafsiran DigabungkanPendekatan Hibrid Python: Kompilasi dan Tafsiran DigabungkanMay 08, 2025 am 12:16 AM

Pythonusesahybridapproach, combiningcompilationtobytecodeandinterpretation.1) codeiscompiledtopplatform-independentbytecode.2) byteCodeisinterpretedbythepythonvirtualmachine, enhancingficiencyAndortability.

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

SublimeText3 Linux versi baharu

SublimeText3 Linux versi baharu

SublimeText3 Linux versi terkini

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat

Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.