Heim  >  Artikel  >  Backend-Entwicklung  >  Beispielcode-Analyse zur Einführung in die Python-Crawler-Technologie

Beispielcode-Analyse zur Einführung in die Python-Crawler-Technologie

王林
王林nach vorne
2023-04-22 13:04:071178Durchsuche

Grundlegende Konzepte der Crawler-Technologie

  1. Crawler: ein Programm, das automatisch Netzwerkdaten abruft.

  2. Webseitenstruktur: HTML, CSS, JavaScript usw.

  3. HTTP-Anfrage: Wie der Client Daten vom Server anfordert.

  4. HTTP-Antwort: Vom Server an den Client zurückgegebene Daten.

Anfragen und Antworten

Verwenden Sie die Anforderungsbibliothek von Python, um HTTP-Anfragen zu senden.

import requests
 
url = "https://www.example.com"
response = requests.get(url)

Antwortinhalte erhalten

html_content = response.text

HTML-Analyse und Datenextraktion

Verwenden Sie die BeautifulSoup-Bibliothek, um HTML-Inhalte zu analysieren.

from bs4 import BeautifulSoup
 
soup = BeautifulSoup(html_content, "html.parser")

Verwenden Sie CSS-Selektoren oder andere Methoden, um Daten zu extrahieren.

title = soup.title.string

Praktischer Kampf: Crawlen Sie die Artikelinformationen auf der Homepage der Jianshu-Website.

Senden Sie eine Anfrage, um den HTML-Inhalt der Homepage der Jianshu-Website zu erhalten.

import requests
from bs4 import BeautifulSoup
 
url = "https://www.jianshu.com"
response = requests.get(url)
html_content = response.text

Daten speichern

Daten im JSON-Format speichern.

import json
 
with open("jianshu_articles.json", "w", encoding="utf-8") as f:
    json.dump(article_info_list, f, ensure_ascii=False, indent=4)

Testen und Optimieren

1. Wenn Sie auf Anti-Crawler-Strategien stoßen, können Sie User-Agent verwenden, um sich als Browser auszugeben.

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
response = requests.get(url, headers=headers)

2. Verwenden Sie die Funktion time.sleep(), um die Anforderungshäufigkeit zu steuern.

import time
 
time.sleep(10)

3. Fehlerbehandlung und Ausnahmeerkennung.

try:
    response = requests.get(url, headers=headers, timeout=5)
    response.raise_for_status()
except requests.exceptions.RequestException as e:
    print(f"Error: {e}")

Vollständiger Code für Website-Crawler:

import requests
from bs4 import BeautifulSoup
import json
import time
 
def fetch_jianshu_articles():
    url = "https://www.jianshu.com"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
 
    try:
        response = requests.get(url, headers=headers, timeout=5)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Error: {e}")
        return
 
    html_content = response.text
    soup = BeautifulSoup(html_content, "html.parser")
    articles = soup.find_all("div", class_="content")
    article_info_list = []
 
    for article in articles:
        title = article.h3.text.strip()
        author = article.find("span", class_="name").text.strip()
        link = url + article.h3.a["href"]
 
        article_info = {"title": title, "author": author, "link": link}
        article_info_list.append(article_info)
 
    return article_info_list
 
def save_to_json(article_info_list, filename):
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(article_info_list, f, ensure_ascii=False, indent=4)
 
if __name__ == "__main__":
    article_info_list = fetch_jianshu_articles()
    if article_info_list:
        save_to_json(article_info_list, "jianshu_articles.json")
        print("Jianshu articles saved to 'jianshu_articles.json'.")
    else:
        print("Failed to fetch Jianshu articles.")

Ergänzung

Um dieses praktische Projekt besser zu verstehen, müssen wir einige grundlegende Konzepte und Prinzipien verstehen, die uns dabei helfen, die Netzwerkprogrammierung und Crawler-Technologie von Python zu beherrschen. Hier sind einige grundlegende Web-Crawling-Konzepte:

  1. HTTP-Protokoll: Hypertext Transfer Protocol (HTTP) ist ein Protokoll auf Anwendungsebene, das zur Übertragung von Hypermedia-Dokumenten wie HTML verwendet wird. Das HTTP-Protokoll wird verwendet, um Daten von einem Webserver an einen Webbrowser oder einen anderen Client zu übertragen oder zu veröffentlichen.

  2. HTML, CSS und JavaScript: HTML ist eine Sprache zur Beschreibung von Webseiten. CSS ist ein Stil, der verwendet wird, um die Struktur von HTML auszudrücken. JavaScript ist eine Skriptsprache für die Webprogrammierung, die hauptsächlich dazu verwendet wird, dynamische Effekte auf Webseiten zu erzielen und mit Benutzern zu interagieren.

  3. DOM: Das Document Object Model (DOM) ist eine plattformübergreifende Programmierschnittstelle zur Verarbeitung von HTML- und XML-Dokumenten. DOM behandelt ein Dokument als Baumstruktur, in der jeder Knoten einen Teil darstellt (z. B. ein Element, ein Attribut oder einen Text).

  4. URL: Ein Uniform Resource Locator (URL) ist eine Zeichenfolge, die zur Angabe des Standorts einer Internetressource verwendet wird.

  5. Anforderungsheader: In HTTP-Anfragen enthalten Anforderungsheader Informationen über die Umgebung, den Browser usw. des Clients. Zu den gängigen Anforderungsheaderfeldern gehören: User-Agent, Accept, Referer usw.

  6. Antwortheader: In der HTTP-Antwort enthält der Antwortheader Informationen über den Server, den Antwortstatuscode und andere Informationen. Zu den gängigen Antwort-Header-Feldern gehören: Inhaltstyp, Inhaltslänge, Server usw.

  7. Web-Crawler-Strategien: Einige Websites wenden bestimmte Strategien an, um zu verhindern, dass Crawler Daten crawlen, z. B. IP-Adresse blockieren, Zugriffsgeschwindigkeit begrenzen, JavaScript zum dynamischen Laden von Daten verwenden usw. In praktischen Anwendungen müssen wir auf der Grundlage dieser Strategien entsprechende Gegenmaßnahmen ergreifen, z. B. die Verwendung von Proxy-IP, die Begrenzung der Crawler-Crawling-Geschwindigkeit, die Verwendung von Browsersimulationsbibliotheken (wie Selenium) usw.

Das obige ist der detaillierte Inhalt vonBeispielcode-Analyse zur Einführung in die Python-Crawler-Technologie. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen