집 >웹 프론트엔드 >JS 튜토리얼 >웹 크롤러를 통한 쿠키 자동 획득 및 만료(자세한 튜토리얼)

웹 크롤러를 통한 쿠키 자동 획득 및 만료(자세한 튜토리얼)

亚连원래의: 2018-06-01 10:02:097936검색

이 글에서는 주로 웹 크롤러의 쿠키 자동 획득 및 만료된 쿠키의 자동 업데이트 구현 방법을 소개합니다. 도움이 필요한 친구는 참고할 수 있습니다.

이 글은 쿠키 자동 획득 및 쿠키 만료 시 자동 업데이트를 구현합니다.

소셜 네트워킹 사이트의 많은 정보는 로그인이 필요합니다. 예를 들어 웨이보를 예로 들면, 로그인하지 않으면 빅 대들의 웨이보 상위 10개 게시물만 볼 수 있습니다. 로그인 상태를 유지하려면 쿠키가 필요합니다. 예를 들어 www.weibo.cn에 로그인하십시오:

Chrome에 입력: http://login.weibo.cn/login/

콘솔 헤더의 요청 반환을 분석하면 다음을 수행하게 됩니다. weibo.cn에 여러 세트의 반환된 쿠키가 있는지 확인하세요.

구현 단계:

1, 셀레늄을 사용하여 자동으로 로그인하여 쿠키를 얻고, 파일에 저장합니다.

2, 쿠키를 읽고, 쿠키의 유효 기간이 만료된 경우 비교합니다. 1단계를 다시 수행하세요.

3, in 다른 웹페이지를 요청할 때 로그인 상태를 유지하려면 쿠키를 입력하세요.

1. 온라인으로 쿠키 얻기

셀레늄과 PhantomJS를 사용하여 브라우저 로그인을 시뮬레이션하고 쿠키를 얻습니다.

일반적으로 여러 개의 쿠키가 있으며 쿠키는 .weibo 접미사가 있는 파일에 하나씩 저장됩니다.

def get_cookie_from_network():
 from selenium import webdriver
 url_login = &#39;http://login.weibo.cn/login/&#39; 
 driver = webdriver.PhantomJS()
 driver.get(url_login)
 driver.find_element_by_xpath(&#39;//input[@type="text"]&#39;).send_keys(&#39;your_weibo_accout&#39;) # 改成你的微博账号
 driver.find_element_by_xpath(&#39;//input[@type="password"]&#39;).send_keys(&#39;your_weibo_password&#39;) # 改成你的微博密码
 driver.find_element_by_xpath(&#39;//input[@type="submit"]&#39;).click() # 点击登录
 # 获得 cookie信息
 cookie_list = driver.get_cookies()
 print cookie_list
 cookie_dict = {}
 for cookie in cookie_list:
  #写入文件
  f = open(cookie[&#39;name&#39;]+&#39;.weibo&#39;,&#39;w&#39;)
  pickle.dump(cookie, f)
  f.close()
  if cookie.has_key(&#39;name&#39;) and cookie.has_key(&#39;value&#39;):
   cookie_dict[cookie[&#39;name&#39;]] = cookie[&#39;value&#39;]
 return cookie_dict

2, 파일에서 쿠키 가져오기

현재 디렉터리에서 .weibo로 끝나는 파일, 즉 쿠키 파일을 탐색합니다. 피클을 사용하여 dict로 압축을 풀고 만료 값을 현재 시간과 비교하고 만료되면 비어 있는 값을 반환합니다.

def get_cookie_from_cache():
 cookie_dict = {}
 for parent, dirnames, filenames in os.walk(&#39;./&#39;):
  for filename in filenames:
   if filename.endswith(&#39;.weibo&#39;):
    print filename
    with open(self.dir_temp + filename, &#39;r&#39;) as f:
     d = pickle.load(f)
     if d.has_key(&#39;name&#39;) and d.has_key(&#39;value&#39;) and d.has_key(&#39;expiry&#39;):
      expiry_date = int(d[&#39;expiry&#39;])
      if expiry_date > (int)(time.time()):
       cookie_dict[d[&#39;name&#39;]] = d[&#39;value&#39;]
      else:
       return {}
 return cookie_dict

3 캐시 쿠키가 만료되면 네트워크에서 쿠키를 다시 가져옵니다.

def get_cookie():
 cookie_dict = get_cookie_from_cache()
 if not cookie_dict:
  cookie_dict = get_cookie_from_network()
 return cookie_dict

4. 쿠키를 사용하여 다른 웨이보 홈페이지를 요청하세요

def get_weibo_list(self, user_id):
 import requests
 from bs4 import BeautifulSoup as bs
 cookdic = get_cookie()
 url = &#39;http://weibo.cn/stocknews88&#39; 
 headers = {&#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36&#39;}
 timeout = 5
 r = requests.get(url, headers=headers, cookies=cookdic,timeout=timeout)
 soup = bs(r.text, &#39;lxml&#39;)
 ...
 # 用BeautifulSoup 解析网页
 ...

위 내용은 제가 모두를 위해 정리한 내용입니다. 앞으로 모든 분들께 도움이 되길 바랍니다.

웹 크롤러를 통한 쿠키 자동 획득 및 만료(자세한 튜토리얼)

관련 기사