Heim > Artikel > Backend-Entwicklung > So legen Sie Anforderungsheader für den Python-Crawler fest
Wenn Sie das Web-Crawling anfordern, werden in den Ausgabetextinformationen Wörter wie „Leider kein Zugriff möglich“ angezeigt. Dies bedeutet, dass das Crawlen verboten ist und der Anti-Crawling-Mechanismus verwendet werden muss, um dieses Problem zu lösen.
Header sind eine Möglichkeit, das Problem des Anti-Crawlings von Anfragen zu lösen. Dies entspricht dem Aufrufen des Servers selbst dieser Webseite und dem Vorgeben, dass er Daten crawlt.
Für Anti-Crawler-Webseiten können Sie einige Header-Informationen festlegen, um einen Browser zu simulieren, der auf die Website zugreift.
Header
Google- oder Firefox-Browser, klicken Sie auf die Webseite: Rechtsklick – Inspizieren; klicken Sie auf „Weitere Tools – Entwicklung“ oder Werkzeug; Sie können auch direkt F12. Drücken Sie dann Fn+F5, um die Webseite zu aktualisieren und die Elemente anzuzeigen
Einige Browser klicken: Rechtsklick -> Elemente anzeigen, aktualisieren
Verwandte Empfehlungen: „Python-Video-Tutorial》
Hinweis: Es gibt viele Inhalte in Headern, die am häufigsten verwendeten sind User-Agent und Host. Sie werden in Form von Schlüsselpaaren angezeigt Benutzeragent Wenn Sie Wörterbuchschlüsselpaare als Inhalt von Headern verwenden, können Sie das Crawling erfolgreich umkehren und es sind keine anderen Schlüsselpaare erforderlich. Andernfalls müssen Sie weitere Schlüsselpaare unter den Headern hinzufügen.
Einstellungen
import urllib2 import urllib values={"username":"xxxx","password":"xxxxx"} data=urllib.urlencode(values) url= "https://ssl.gstatic.com/gb/images/v2_730ffe61.png" user_agent="Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1" referer='http://www.google.com/' headers={"User-Agent":user_agent,'Referer':referer} request=urllib2.Request(url,data,headers) response=urllib2.urlopen(request) print response.read()
Das obige ist der detaillierte Inhalt vonSo legen Sie Anforderungsheader für den Python-Crawler fest. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!