집 >백엔드 개발 >파이썬 튜토리얼 >Python에서 Baidu Cloud 연결 방법을 크롤링하는 방법

Python에서 Baidu Cloud 연결 방법을 크롤링하는 방법

巴扎黑원래의: 2017-08-07 17:34:302458검색

이 글은 주로 Python urllib 크롤링 Baidu 클라우드 연결의 예제 코드를 소개합니다. 관심 있는 친구들이 참고할 수 있습니다.

제가 이전에 작성한 프로그램을 살펴보니 제가 크롤링 디스크 Duoduo Baidu Cloud를 작성한 것을 발견했습니다. 제가 트랜스포머를 보고 싶었을 때 리소스는 제가 직접 작성했습니다. 처음으로 Python을 접하게 되었는데, 이 프로그램을 만드는 데 약 2일이 걸렸고, Python 언어를 배우고 코드 작성을 볼 수 있습니다. 그때는 정말 낮습니다. 지금은 별로 좋지는 않지만 ㅎㅎ 아직 배우는 중이라 자세한 설명은 생략하겠습니다. 변수 선언이 무엇인지 잊어버렸기 때문에(수동 오만함) 위 그림에 코드가 나와 있습니다. 그땐 파일 쓰는 법도 몰랐는데 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 클래스가 init로 초기화되는 줄도 몰랐네요 아아, 파이썬을 배우면서 참 많은 걸 배웠네요

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

&#39;&#39;&#39;&#39;对搜素资源名字进行url编码&#39;&#39;&#39;
search_text =raw_input(&#39;请输入搜索资源名：&#39;)
search_text = search_text.decode(&#39;gbk&#39;)
search_text = search_text.encode(&#39;utf-8&#39;)
search_text = urllib.quote(search_text)


&#39;&#39;&#39;&#39;获取文件地址&#39;&#39;&#39;
home = urllib.urlopen(&#39;http://www.panduoduo.net/s/name/&#39;+search_text)


&#39;&#39;&#39;获取百度云地址&#39;&#39;&#39;
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen(&#39;http://www.panduoduo.net&#39;+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select(&#39;.dbutton2&#39;)
    href = re.compile(&#39;http\%(\%|\d|\w|\/\/|\/|\.)*&#39;)
    b = href.search(str(bs1))
    name = str(bs.select(&#39;.center&#39;)).decode(&#39;utf-8&#39;)
    text1 = re.compile(&#39;\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>&#39;)
    text2 = text1.search(name)
    rag1 = re.compile(&#39;\>[\d|\w|\D|\W]*\<&#39;)
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode(&#39;utf-8&#39;)
      print text

&#39;&#39;&#39;初始化&#39;&#39;&#39;
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select(&#39;.row&#39;)
  pattern = re.compile(&#39;\/r\/\d+&#39;)
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print &#39;running---------&#39;    
init(adr)
getbaidu(adr)

위 내용은 Python에서 Baidu Cloud 연결 방법을 크롤링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：

이전 기사：Python에서 화면 지우기 기능을 추가하는 방법 소개다음 기사：Python에서 화면 지우기 기능을 추가하는 방법 소개