Rumah >pembangunan bahagian belakang >Tutorial Python >python如何爬取百度云连接方法指导

python如何爬取百度云连接方法指导

巴扎黑asal: 2017-08-07 17:34:302426semak imbas

本篇文章主要介绍了python urllib爬取百度云连接的实例代码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下

翻看自己以前写的程序，发现写过一个爬取盘多多百度云资源的东西，完全是当时想看变形金刚才自己写的，而且当时第一次接触python大概写了有2天才搞出来这个程序，学习python语言，可以看得出来那时候的代码写的真的low。虽然现在也不怎么样，哈哈，一直学习中，不做过多解释，上图上代码，因为变量的声明是什么我自己也忘了（手动傲娇），连写入文件当时都不会哈哈哈哈哈哈哈哈，也不知道class中可以通过init初始化，唉学习python原来我学到了这么多东西，感谢python

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

&#39;&#39;&#39;&#39;对搜素资源名字进行url编码&#39;&#39;&#39;
search_text =raw_input(&#39;请输入搜索资源名：&#39;)
search_text = search_text.decode(&#39;gbk&#39;)
search_text = search_text.encode(&#39;utf-8&#39;)
search_text = urllib.quote(search_text)


&#39;&#39;&#39;&#39;获取文件地址&#39;&#39;&#39;
home = urllib.urlopen(&#39;http://www.panduoduo.net/s/name/&#39;+search_text)


&#39;&#39;&#39;获取百度云地址&#39;&#39;&#39;
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen(&#39;http://www.panduoduo.net&#39;+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select(&#39;.dbutton2&#39;)
    href = re.compile(&#39;http\%(\%|\d|\w|\/\/|\/|\.)*&#39;)
    b = href.search(str(bs1))
    name = str(bs.select(&#39;.center&#39;)).decode(&#39;utf-8&#39;)
    text1 = re.compile(&#39;\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>&#39;)
    text2 = text1.search(name)
    rag1 = re.compile(&#39;\>[\d|\w|\D|\W]*\<&#39;)
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode(&#39;utf-8&#39;)
      print text

&#39;&#39;&#39;初始化&#39;&#39;&#39;
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select(&#39;.row&#39;)
  pattern = re.compile(&#39;\/r\/\d+&#39;)
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print &#39;running---------&#39;    
init(adr)
getbaidu(adr)

Atas ialah kandungan terperinci python如何爬取百度云连接方法指导. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan：

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel sebelumnya：Python增加清屏功能方法介绍Artikel seterusnya：python爬取文章实例教程

Artikel berkaitan

Lihat lagi