Heim  >  Artikel  >  Backend-Entwicklung  >  So legen Sie Anforderungsheader für den Python-Crawler fest

So legen Sie Anforderungsheader für den Python-Crawler fest

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼Original
2019-06-20 14:30:382830Durchsuche

Wenn Sie das Web-Crawling anfordern, werden in den Ausgabetextinformationen Wörter wie „Leider kein Zugriff möglich“ angezeigt. Dies bedeutet, dass das Crawlen verboten ist und der Anti-Crawling-Mechanismus verwendet werden muss, um dieses Problem zu lösen.

Header sind eine Möglichkeit, das Problem des Anti-Crawlings von Anfragen zu lösen. Dies entspricht dem Aufrufen des Servers selbst dieser Webseite und dem Vorgeben, dass er Daten crawlt.

Für Anti-Crawler-Webseiten können Sie einige Header-Informationen festlegen, um einen Browser zu simulieren, der auf die Website zugreift.

So legen Sie Anforderungsheader für den Python-Crawler fest

Header

Google- oder Firefox-Browser, klicken Sie auf die Webseite: Rechtsklick – Inspizieren; klicken Sie auf „Weitere Tools – Entwicklung“ oder Werkzeug; Sie können auch direkt F12. Drücken Sie dann Fn+F5, um die Webseite zu aktualisieren und die Elemente anzuzeigen

Einige Browser klicken: Rechtsklick -> Elemente anzeigen, aktualisieren

Verwandte Empfehlungen: „Python-Video-Tutorial

So legen Sie Anforderungsheader für den Python-Crawler fest

Hinweis: Es gibt viele Inhalte in Headern, die am häufigsten verwendeten sind User-Agent und Host. Sie werden in Form von Schlüsselpaaren angezeigt Benutzeragent Wenn Sie Wörterbuchschlüsselpaare als Inhalt von Headern verwenden, können Sie das Crawling erfolgreich umkehren und es sind keine anderen Schlüsselpaare erforderlich. Andernfalls müssen Sie weitere Schlüsselpaare unter den Headern hinzufügen.

Einstellungen

import urllib2
import urllib
values={"username":"xxxx","password":"xxxxx"}
data=urllib.urlencode(values)
url= "https://ssl.gstatic.com/gb/images/v2_730ffe61.png"
user_agent="Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
referer='http://www.google.com/'
headers={"User-Agent":user_agent,'Referer':referer}
request=urllib2.Request(url,data,headers)
response=urllib2.urlopen(request)
print response.read()

Das obige ist der detaillierte Inhalt vonSo legen Sie Anforderungsheader für den Python-Crawler fest. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn