Heim >Backend-Entwicklung >Python-Tutorial >Detaillierte Beschreibung des 403-Zugriffsverbotsfehlers im Python-Crawler
In diesem Artikel werden hauptsächlich relevante Informationen zur detaillierten Erklärung des 403-Zugriffsverbotsfehlers im Python-Crawler vorgestellt.
Der Python-Crawler behebt den 403-Zugriffsverbotsfehler
Beim Schreiben eines Crawlers in Python tritt bei html.getcode() das 403-Zugriffsverbot auf. Dies ist ein Verbot automatisierter Crawler auf der Website. Um dieses Problem zu lösen, müssen Sie das Python-Modul urllib2 verwenden
Das urllib2-Modul ist ein erweitertes Crawler-Crawling-Modul. Es gibt viele Methoden. Wenn Sie beispielsweise eine Verbindung mit url=http://blog.csdn.NET/qysh123 herstellen, liegt möglicherweise ein 403-Zugriffsverbotsproblem vor Diese Verbindung
Um dieses Problem zu lösen, benötigen Sie die folgenden Schritte:
<span style="font-size:18px;">req = urllib2.Request(url) req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36") req.add_header("GET",url) req.add_header("Host","blog.csdn.net") req.add_header("Referer","http://blog.csdn.net/")</span>
wobei User-Agent ein browserspezifischer Attribut, Sie können den Quellcode über den Browser anzeigen, um
anzuzeigen, und dannhtml=urllib2.urlopen(req) print html.read(), um die gesamte Webseite herunterzuladen Code ohne 403 Verbotene Zugriffsprobleme. Für die oben genannten Probleme kann es in eine
Funktion gekapselt werden, um zukünftige Anrufe zu vereinfachen. Der spezifische Code:
#-*-coding:utf-8-*- import urllib2 import random url="http://blog.csdn.net/qysh123/article/details/44564943" my_headers=["Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14", "Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)" ] def get_content(url,headers): ''''' @获取403禁止访问的网页 ''' randdom_header=random.choice(headers) req=urllib2.Request(url) req.add_header("User-Agent",randdom_header) req.add_header("Host","blog.csdn.net") req.add_header("Referer","http://blog.csdn.net/") req.add_header("GET",url) content=urllib2.urlopen(req).read() return content print get_content(url,my_headers)Die Zufallsfunktion wird verwendet, um automatisch die User-Agent-Informationen des geschriebenen Browsertyps abzurufen. In der
benutzerdefinierten Funktion müssen Sie Ihre eigenen Host-, Referrer- und GET-Informationen schreiben. usw., um diese Probleme zu lösen. Nach diesem Problem können Sie problemlos darauf zugreifen und die 403-Zugriffsinformationen werden nicht mehr angezeigt.
Das obige ist der detaillierte Inhalt vonDetaillierte Beschreibung des 403-Zugriffsverbotsfehlers im Python-Crawler. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!