Heim >Backend-Entwicklung >Python-Tutorial >Wie benutze ich eine schöne Suppe, um HTML zu analysieren?

Wie benutze ich eine schöne Suppe, um HTML zu analysieren?

James Robert Taylor
James Robert TaylorOriginal
2025-03-10 18:54:181003Durchsuche

Wie benutze ich eine schöne Suppe, um HTML zu analysieren? Es erstellt einen Parse -Baum aus dem angegebenen HTML, sodass Sie die Daten problemlos navigieren, suchen und ändern können. Um es zu verwenden, müssen Sie es zunächst mit PIP installieren: PIP Installieren Sie BeautifulSoup4 . Dann können Sie es in Ihr Python -Skript importieren und HTML -Inhalte analysieren. Hier ist ein grundlegendes Beispiel:
 <code class="python"> aus bs4 importieren BeautifulSoup -Importanfragen # Abrufen Sie den HTML -Inhalt (ersetzen Sie durch Ihre URL) url = & quot; https: //www.example.com" response = requests.get (url) response.raise_for_status () # httperror für schlechte Antworten (4xx oder 5xx) html_content = response Title Tag Print (Suppe.find_all (& quot; p & quot;)) # Drucken alle Absatz -Tags </code> 

Dieser Code holt zuerst HTML von einer URL mit der -Anfragen Bibliothek ab (Sie müssen es separat mit PIP -Anforderungen installieren). Anschließend wird der Konstruktor BeautifulSoup den HTML -Inhalt analysiert und "html.parser" als Parser angeben. Schließlich zeigt es den Zugriff auf den & lt; title & gt; Tag und das Finden aller & lt; p & gt; Denken Sie daran, potenzielle Ausnahmen wie Netzwerkfehler (<code> -Answerte "zu behandeln. Zu den häufigsten gehören:

  • Find () und find_all () : Dies sind die Arbeitsplätze der schönen Suppe. find () Gibt das erste Tag zurück, das mit den angegebenen Kriterien übereinstimmt, während find_all () eine Liste aller übereinstimmenden Tags zurückgibt. Kriterien können ein Tag-Name (z. B. "P", "A"), Attribute (z. B. {"Klasse": "My-Class", "ID": "my-id"}) oder eine Kombination aus beiden sein. Sie können auch reguläre Ausdrücke für komplexere Übereinstimmungen verwenden. Dies ist eine leistungsstarke und präzise Möglichkeit, um bestimmte Elemente zu zielen, insbesondere wenn es sich um komplexe HTML -Strukturen handelt. Zum Beispiel Suppe.Select (".My-Klasse P & quot;) wird alle & lt; p & gt; Tags in Elementen mit der Klasse" my-class "finden. Es ist von unschätzbarem Wert, um den tatsächlichen Text von HTML -Elementen zu erhalten. Zum Beispiel wird tag [& quot; href & quot;] den Wert des href Attribut eines & lt; a & gt; Tag. .Next_sibling , .previous_sibling usw. Diese Methoden ermöglichen das Durchführen der HTML -Struktur, um verwandte Elemente zu finden. class = "python"># ... (vorheriger Code, um Suppe zu erhalten) ... first_paragraph = ups.find (& quot; p & quot;) all_paragraphs = ups.find_all (& quot; p & quot;) first_priaph_text = first_paragraph.get_text () print (f & quot;). Absätze: {len (All_Paragraphs)} & quot;)

    Wie kann ich verschiedene HTML -Strukturen und potenzielle Fehler mit einer schönen Suppe bewältigen? Um Variationen und potenzielle Fehler zu bewältigen, berücksichtigen Sie diese Strategien:
    • Robustes Parsen: Verwenden Sie einen verzeihenden Parser wie "html.parser" (der Standard), der in Python eingebaut ist. Es ist besser beim Umgang mit missgebildetem HTML als andere Parser wie "lxml" (was schneller, aber strenger ist). mit unerwarteten Datentypen).
    • Flexible Auswahl: Verwenden Sie CSS -Selektoren oder flexible Attributübereinstimmungen in find () und find_all () , um Variationen in der HTML -Struktur aufzunehmen. Anstatt sich auf bestimmte Klassennamen oder IDs zu verlassen, die sich ändern können, sollten Sie mehr allgemeinere Selektoren oder Attribute verwenden. Verwenden Sie bedingte Anweisungen (z. B. Wenn Element: ).
    • Datenreinigung: Nach dem Extraktion die Daten, um Inkonsistenzen wie zusätzliche Whitespace, Newline -Zeichen oder HTML -Entitäten zu verarbeiten. Pythons Strip () Methode und reguläre Ausdrücke sind dafür hilfreich. Nicht gefunden. Schöne Suppe arbeitet mit der ursprünglich heruntergeladenen HTML. Es führt JavaScript nicht aus. JavaScript rendert den Inhalt dynamisch nach dem Laden der Seite, so dass die schöne Suppe nur den anfänglichen, statischen html sieht. Es wird die Seite vollständig geladen, sodass JavaScript ausgeführt werden kann. Anschließend können Sie schöne Suppe verwenden, um das resultierende HTML aus dem Dom des Browsers zu analysieren. Dies ist eine leistungsstarke, aber langsamere Methode. Es ist oft schneller und moderner als Selen. Rendering-Dienste: Mehrere Cloud-basierte Dienste bieten JavaScript-Rendering-Funktionen. Dies sind normalerweise bezahlte Dienste, können jedoch für ein groß angelegtes Scraping bequem sein. Übermäßiges Schaber kann Server überlasten und dazu führen, dass Ihre IP -Adresse blockiert wird.

Das obige ist der detaillierte Inhalt vonWie benutze ich eine schöne Suppe, um HTML zu analysieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn