Heim >Backend-Entwicklung >Python-Tutorial >Wie extrahiere ich mit BeautifulSoup nur sichtbaren Text aus Webseiten?

Wie extrahiere ich mit BeautifulSoup nur sichtbaren Text aus Webseiten?

Linda Hamilton
Linda HamiltonOriginal
2024-11-15 11:08:02928Durchsuche

How to Extract Only Visible Text from Webpages with BeautifulSoup?

So extrahieren Sie mit BeautifulSoup nur sichtbaren Text aus Webseiten

Web Scraping beinhaltet oft die Auswahl bestimmter Teile des Inhalts einer Webseite, einschließlich sichtbarem Text. BeautifulSoup, eine beliebte Web-Scraping-Bibliothek, kann verwendet werden, um nur den sichtbaren Text zu extrahieren, ohne versteckte Elemente wie Kommentare und Skripte.

Ursprüngliche Frage:

Das Original Die Frage zielt darauf ab, den sichtbaren Text von einer Webseite zu isolieren, insbesondere Skript-Tags, HTML-Kommentare und andere nicht sichtbare Inhalte auszuschließen. Der Benutzer möchte den Haupttext und möglicherweise einige Tabulatornamen abrufen und dabei Elemente wie CSS und JavaScript vermeiden.

Antwort erklärt:

Die bereitgestellte Antwort nutzt BeautifulSoup zusammen mit benutzerdefinierter Filterung, um diese Anfrage zu erfüllen. Die Funktion tag_visible() wertet aus, ob ein bestimmtes Element zu einem bestimmten Satz unsichtbarer Elementtypen gehört (z. B. Stil, Skript, Kopf) oder ob es sich um einen HTML-Kommentar handelt. Wenn ja, wird False zurückgegeben, was darauf hinweist, dass das Element ausgeschlossen werden sollte.

Die Funktion text_from_html() verwendet die Methode BeautifulSoup.findAll() mit dem Textargument, um alle Textelemente zu erfassen. Anschließend wendet es den tag_visible()-Filter auf die Textelemente an, um die sichtbaren zu isolieren. Schließlich werden die sichtbaren Texte zu einer einzigen Zeichenfolge zusammengefasst, wodurch das gewünschte Ergebnis nur aus dem sichtbaren Text der Webseite entsteht.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich mit BeautifulSoup nur sichtbaren Text aus Webseiten?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn