Heim  >  Artikel  >  Backend-Entwicklung  >  Der Python-Crawler gibt eine 403-Fehlerlösung zurück

Der Python-Crawler gibt eine 403-Fehlerlösung zurück

伊谢尔伦
伊谢尔伦Original
2017-04-29 10:05:506465Durchsuche

Problem

Beim Crawlen von Daten lauten die Debugging-Informationen normalerweise wie folgt:

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)

Wenn

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)

erscheint, bedeutet dies, dass die Website Anti-Web verwendet Technologie – Crawling-Technik (von Amazon verwendet), die relativ einfach ist und die Informationen des Benutzeragenten (User Agent) überprüft.

Lösung

Erstellen Sie einen Benutzeragenten im Anforderungsheader, wie unten gezeigt:

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})


Das obige ist der detaillierte Inhalt vonDer Python-Crawler gibt eine 403-Fehlerlösung zurück. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn