Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk mengekstrak hanya teks yang boleh dilihat dari halaman web dengan BeautifulSoup?
Cara Mengekstrak Teks Yang Boleh Nampak Sahaja daripada Halaman Web dengan BeautifulSoup
Pengikisan web selalunya melibatkan pemilihan bahagian tertentu kandungan halaman web, termasuk teks yang boleh dilihat. BeautifulSoup, perpustakaan mengikis web yang popular, boleh digunakan untuk mengekstrak teks yang boleh dilihat sahaja, tidak termasuk elemen tersembunyi seperti ulasan dan skrip.
Soalan Asal:
Yang asal soalan bertujuan untuk mengasingkan teks yang boleh dilihat daripada halaman web, khususnya mengecualikan teg skrip, ulasan HTML dan kandungan tidak kelihatan lain. Pengguna ingin mendapatkan semula teks isi utama dan kemungkinan beberapa nama tab, sambil mengelakkan elemen seperti CSS dan JavaScript.
Jawapan Diterangkan:
Jawapan yang disediakan memanfaatkan BeautifulSoup bersama-sama dengan penapisan tersuai untuk memenuhi permintaan ini. Fungsi tag_visible() menilai sama ada elemen tertentu tergolong dalam set jenis elemen halimunan tertentu (cth., gaya, skrip, kepala) atau jika ia adalah ulasan HTML. Jika ya, ia mengembalikan False, menunjukkan elemen harus dikecualikan.
Fungsi text_from_html() menggunakan kaedah BeautifulSoup.findAll() dengan argumen teks untuk menangkap semua elemen teks. Selepas itu, ia menggunakan penapis tag_visible() pada elemen teks untuk mengasingkan yang boleh dilihat. Akhir sekali, ia menggabungkan teks yang boleh dilihat ke dalam satu rentetan, menghasilkan hasil yang diingini bagi hanya teks kelihatan halaman web.
Atas ialah kandungan terperinci Bagaimana untuk mengekstrak hanya teks yang boleh dilihat dari halaman web dengan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!