Heim > Artikel > Backend-Entwicklung > Einführung in den grundlegenden Crawler-Prozess Request und Response
Ein auf Python basierender Crawler möchte Daten von der Website abrufen, was den Prozess von der Anfrage bis zur Antwort darstellt. Wir tarnen den Browser, um eine Anforderungsanforderung an den Server zu senden, und der Server antwortet mit einer Antwort, nachdem er die Informationen akzeptiert hat.
Im vorherigen Artikel haben wir erklärt, was ein Crawler ist, und eine Einführung in den grundlegenden Prozess des Crawlers gegeben, Heute geben wir Was jeder mitbringt, ist eine detaillierte Einführung in den grundlegenden Prozess, was Anfrage und Antwort sind.
Anfrage
1. Was ist eine Anfrage?
Der Browser sendet Informationen an den Server, auf dem sich die URL befindet. Dieser Vorgang wird als HTTP-Anfrage bezeichnet.
2. Was ist in der Anfrage enthalten?
Anfragemethode: Die wichtigsten Arten von Anfragemethoden sind GET und POST sowie HEAD, PUT, DELETE usw. Die Anforderungsparameter der GET-Anfrage werden nach dem URL-Link angezeigt. Wenn wir beispielsweise Baidu öffnen und nach „Bildern“ suchen, sehen wir, dass der angeforderte URL-Link https://www.baidu.com/s ist. wd=Bild. Die Anfrageparameter der POST-Anfrage werden in der Anfrage gespeichert und erscheinen nicht hinter dem URL-Link. Wenn wir uns beispielsweise bei Zhihu anmelden und den Benutzernamen und das Passwort eingeben, wird die Netzwerkseite der Browser-Entwicklertools angezeigt In der Anfrage-Anfrage werden die Schlüssel-Wert-Paar-Informationen von Form Data gespeichert, was zum Schutz der Sicherheit unserer Kontoinformationen beiträgt. URL-Anfrage: Der vollständige Name der URL lautet „Uniform Resource Locator“. Beispielsweise kann ein Bild, eine Musikdatei, ein Webdokument usw. anhand einer eindeutigen URL bestimmt werden. Die darin enthaltenen Informationen geben den Speicherort der Datei und die Art und Weise an, wie der Browser sie verarbeiten soll die Anforderungs-Header-Informationen, wie z. B. User-Agent (geben Sie den Anforderungs-Header des Browsers an), Host, Cookies und andere Informationen: Der Anforderungshauptteil sind die zusätzlichen Daten, die in der Anforderung enthalten sind, z. B. die von der Anmeldung übermittelten Anmeldeinformationen bilden.
Reaktion
1. Was ist Reaktion?
Nachdem der Server die vom Browser gesendeten Informationen empfangen hat, kann er diese entsprechend dem Inhalt der vom Browser gesendeten Informationen verarbeiten und die Nachricht dann an den Browser zurücksenden namens HTTP-Antwort.
2.Was ist in der Antwort enthalten?
Antwortstatus: Es gibt viele Antwortstatus, z. B. 200 für Erfolg, 301 für Sprungseite, 404 für Seite nicht gefunden, 502 für Serverfehler. Antwort-Header: z. B. Inhaltstyp, Inhaltslänge , Serverinformationen, Cookie-Einstellungen usw.; Antworttext: Der wichtigste Teil des Antworttextes, einschließlich des Inhalts der angeforderten Ressource, wie z. B. HTML-Code der Webseite, binäre Bilddaten usw.
Einfache Demonstration
import requests # 导入requests库,需要安装 # 模拟成浏览器访问的头 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('https://www.baidu.com',headers=headers) print(resp.text) # 打印出网页源代码 print(resp.status_code) # 打印出状态码
Nach erfolgreicher Ausführung können Sie den gedruckten HTML-Quellcode und den 200-Statuscode sehen. Dies implementiert im Wesentlichen den Anforderungs- und Antwortprozess des Crawlers.
Das obige ist der detaillierte Inhalt vonEinführung in den grundlegenden Crawler-Prozess Request und Response. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!