Rumah >pembangunan bahagian belakang >Tutorial Python >基于Python3.4实现简单抓取爬虫功能详细介绍

基于Python3.4实现简单抓取爬虫功能详细介绍

巴扎黑asal: 2017-09-16 10:16:361630semak imbas

这篇文章主要介绍了Python3.4编程实现简单抓取爬虫功能,涉及Python3.4网页抓取及正则解析相关操作技巧,需要的朋友可以参考下

本文实例讲述了Python3.4编程实现简单抓取爬虫功能。分享给大家供大家参考，具体如下：

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[(&#39;User-Agent&#39;,&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36&#39;),(&#39;Cookie&#39;,&#39;4564564564564564565646540&#39;)]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode(&#39;utf-8&#39;)
  reg=&#39;"screen_name":"(.*?)"&#39;
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=[&#39;2808675432&#39;,&#39;3888405676&#39;,&#39;2628551531&#39;,&#39;2808587400&#39;]
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

Atas ialah kandungan terperinci 基于Python3.4实现简单抓取爬虫功能详细介绍. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：总结有关python实现八大排序算法（上）Artikel seterusnya：Python开发MapReduce系列之WordCount Demo

Artikel berkaitan

Lihat lagi