Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?

Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?

DDD
DDDasal
2024-11-25 18:41:09816semak imbas

How to Extract Visible Webpage Text Using BeautifulSoup?

Mengekstrak Teks Halaman Web Nampak dengan BeautifulSoup

Banyak tugas mengikis web melibatkan mendapatkan semula kandungan teks yang boleh dilihat halaman web, tidak termasuk elemen seperti skrip, komen, dan gaya CSS. Menggunakan BeautifulSoup, mencapai ini boleh menjadi mudah dengan pendekatan yang betul.

Isu biasa timbul apabila menggunakan fungsi findAll(), kerana ia mendapatkan semula semua nod teks, termasuk yang tersembunyi dalam unsur yang tidak diingini. Untuk menangani perkara ini, kami boleh menentukan penapis tersuai untuk mengecualikan teg dan ulasan tertentu.

Kod berikut menunjukkan pendekatan ini:

from bs4 import BeautifulSoup
from bs4.element import Comment
import urllib.request


def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)
    return u" ".join(t.strip() for t in visible_texts)

html = urllib.request.urlopen('http://www.nytimes.com/2009/12/21/us/21storm.html').read()
print(text_from_html(html))

Fungsi tag_visible menyemak sama ada elemen induk teks nod sepadan dengan mana-mana teg yang tidak diingini atau jika nod ialah ulasan. Nod yang melepasi penapis ini kemudiannya digunakan untuk menggabungkan teks yang boleh dilihat menjadi satu rentetan menggunakan u" ".join(t.strip() untuk t dalam visible_texts).

Pendekatan ini hanya mengekstrak teks yang boleh dilihat dengan berkesan daripada halaman web, meninggalkan elemen yang tidak perlu seperti skrip dan ulasan.

Atas ialah kandungan terperinci Bagaimana untuk mengekstrak teks halaman web yang boleh dilihat menggunakan BeautifulSoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn