Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk mengekstrak hanya teks yang boleh dilihat dari halaman web dengan BeautifulSoup?

Bagaimana untuk mengekstrak hanya teks yang boleh dilihat dari halaman web dengan BeautifulSoup?

Linda Hamilton
Linda Hamiltonasal
2024-11-15 11:08:02927semak imbas

How to Extract Only Visible Text from Webpages with BeautifulSoup?

Cara Mengekstrak Teks Yang Boleh Nampak Sahaja daripada Halaman Web dengan BeautifulSoup

Pengikisan web selalunya melibatkan pemilihan bahagian tertentu kandungan halaman web, termasuk teks yang boleh dilihat. BeautifulSoup, perpustakaan mengikis web yang popular, boleh digunakan untuk mengekstrak teks yang boleh dilihat sahaja, tidak termasuk elemen tersembunyi seperti ulasan dan skrip.

Soalan Asal:

Yang asal soalan bertujuan untuk mengasingkan teks yang boleh dilihat daripada halaman web, khususnya mengecualikan teg skrip, ulasan HTML dan kandungan tidak kelihatan lain. Pengguna ingin mendapatkan semula teks isi utama dan kemungkinan beberapa nama tab, sambil mengelakkan elemen seperti CSS dan JavaScript.

Jawapan Diterangkan:

Jawapan yang disediakan memanfaatkan BeautifulSoup bersama-sama dengan penapisan tersuai untuk memenuhi permintaan ini. Fungsi tag_visible() menilai sama ada elemen tertentu tergolong dalam set jenis elemen halimunan tertentu (cth., gaya, skrip, kepala) atau jika ia adalah ulasan HTML. Jika ya, ia mengembalikan False, menunjukkan elemen harus dikecualikan.

Fungsi text_from_html() menggunakan kaedah BeautifulSoup.findAll() dengan argumen teks untuk menangkap semua elemen teks. Selepas itu, ia menggunakan penapis tag_visible() pada elemen teks untuk mengasingkan yang boleh dilihat. Akhir sekali, ia menggabungkan teks yang boleh dilihat ke dalam satu rentetan, menghasilkan hasil yang diingini bagi hanya teks kelihatan halaman web.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak hanya teks yang boleh dilihat dari halaman web dengan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn