Heim >Backend-Entwicklung >Python-Tutorial >Ausführliche Erläuterung von Beispielen gängiger Befehle, die zum Zugreifen auf und Crawlen von Webseiten in Python verwendet werden
In diesem Artikel werden hauptsächlich relevante Informationen zu den häufig verwendeten Befehlen für Python zum Zugreifen auf und zum Crawlen von Webseiten vorgestellt. Freunde, die diese benötigen, können sich auf
Allgemeine Befehle für Python zum Zugreifen auf und zum Crawlen von Webseiten
Einfaches Crawlen von Webseiten:
import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read()
URL direkt als lokale Datei speichern:
import urllib.request url="http://google.cn/" response=urllib.request.urlopen(url) #返回文件对象 page=response.read()
POST-Methode:
import urllib.parse import urllib.request url="http://liuxin-blog.appspot.com/messageboard/add" values={"content":"命令行发出网页请求测试"} data=urllib.parse.urlencode(values) #创建请求对象 req=urllib.request.Request(url,data) #获得服务器返回的数据 response=urllib.request.urlopen(req) #处理数据 page=response.read()
GET-Methode:
import urllib.parse import urllib.request url="http://www.google.cn/webhp" values={"rls":"ig"} data=urllib.parse.urlencode(values) theurl=url+"?"+data #创建请求对象 req=urllib.request.Request(theurl) #获得服务器返回的数据 response=urllib.request.urlopen(req) #处理数据 page=response.read()Es gibt zwei häufig verwendete Methoden: geturl(), info()Die Einstellung von geturl() besteht darin, festzustellen, ob eine serverseitige URL-Umleitung vorliegt, während info() eine Reihe von Informationen enthält. Um chinesische Probleme zu lösen, werden die Kodierung encode() und die Dekodierung dencode() verwendet:
Das obige ist der detaillierte Inhalt vonAusführliche Erläuterung von Beispielen gängiger Befehle, die zum Zugreifen auf und Crawlen von Webseiten in Python verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!