Heim >Backend-Entwicklung >Python-Tutorial >Detaillierte Einführung in die einfache Crawler-Funktion basierend auf Python3.4

Detaillierte Einführung in die einfache Crawler-Funktion basierend auf Python3.4

巴扎黑
巴扎黑Original
2017-09-16 10:16:361593Durchsuche

Dieser Artikel stellt hauptsächlich die Python3.4-Programmierung zur Implementierung einfacher Crawling- und Crawler-Funktionen vor, einschließlich Python3.4-Webseiten-Crawling und regelmäßiger Analyse im Zusammenhang mit Betriebstechniken.

Dieser Artikel beschreibt die Beispiele: Die Python3.4-Programmierung implementiert eine einfache Crawler-Funktion. Teilen Sie es als Referenz mit allen. Die Details lauten wie folgt:


import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

Das obige ist der detaillierte Inhalt vonDetaillierte Einführung in die einfache Crawler-Funktion basierend auf Python3.4. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn