Heim >Backend-Entwicklung >Python-Tutorial >Ausführliche Erklärung, wie Python-Crawler Proxys zum Crawlen von Webseiten verwenden
Proxy-Typ (Proxy): Transparenter Proxy, anonymer Proxy, Verwirrungs-Proxy und Proxy mit hoher Anonymität. Hier finden Sie einige Informationen zu Python-Crawlern, die Proxys verwenden, und einer Proxy-Pool-Klasse um verschiedene Aspekte der Arbeit zu bewältigen.
Die Verwendung eines Proxys für urllib/urllib2 ist problematischer. Sie müssen zuerst eine ProxyHandler-Klasse erstellen und dann diese Klasse verwenden, um die zu öffnende Opener-Klasse zu erstellen Öffnen Sie die Webseite und verwenden Sie sie dann in der Anfrage. Installieren Sie den Öffner.
Das Proxy-Format ist „http://127.0.0.1:80“. Wenn Sie das Kontokennwort wünschen, lautet es „http:/“. /user:password@127.0.0.1:80" Wenn es mehrmals verwendet wird, können Sie es mit
sessionproxy="http://127.0.0.1:80" # 创建一个ProxyHandler对象 proxy_support=urllib.request.ProxyHandler({'http':proxy}) # 创建一个opener对象 opener = urllib.request.build_opener(proxy_support) # 给request装载opener urllib.request.install_opener(opener) # 打开一个url r = urllib.request.urlopen('http://youtube.com',timeout = 500)erstellen.Wenn Sie einen Proxy verwenden müssen, können Sie eine einzelne Anfrage konfigurieren, indem Sie den Proxys-Parameter für jede Anfragemethode angeben :
Sie können auch die Umgebungs-
VariablenHTTP_PROXY und HTTPS_PROXY übergeben, um den Proxy zu konfigurieren.
import requests proxies = { "http": "http://127.0.0.1:3128", "https": "http://127.0.0.1:2080", } r=requests.get("http://youtube.com", proxies=proxies) print r.text
Wenn Ihr Proxy HTTP Basic Auth verwenden muss, können Sie http://user:password@host/ verwenden. Syntax:
Die Proxy-Nutzung von Python ist sehr einfach. Das Wichtigste ist, einen Agenten mit einem stabilen und zuverlässigen Netzwerk zu finden. Wenn Sie Fragen haben, hinterlassen Sie bitte eine Nachrichtexport HTTP_PROXY="http://127.0.0.1:3128" export HTTPS_PROXY="http://127.0.0.1:2080" python >>> import requests >>> r=requests.get("http://youtube.com") >>> print r.text
Das obige ist der detaillierte Inhalt vonAusführliche Erklärung, wie Python-Crawler Proxys zum Crawlen von Webseiten verwenden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!