淘宝模拟登陆抓取失败
# __author__ = ''
# -*- coding: utf-8 -*-
import requests
import re
s = requests.session()
login_data = {'email': 'xxx', 'password': 'xxx', }
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
'Host':'log.mmstat.com',
'Referer':'https://www.taobao.com/'
}
# post 数据实现登录
s.post('https://login.taobao.com/member/login.jhtml?redirectURL=https%3A%2F%2Fwww.taobao.com%2F', login_data, headers=headers)
# 验证是否登陆成功,抓取'淘宝'首页看看内容
r = s.get('https://www.taobao.com')
print r.text
还是小白
用户名和密码省去嘞
得到的还是未登录时的代码,不知道自己少了什么,有成功的大神能告知一下咩
迷茫2017-04-17 17:34:45
요청을 보낼 때 쿠키 첨부에 주의하세요~
로그인을 시뮬레이션할 때 다음 사항에 주의하는 것이 좋습니다.
브라우저에서 일반 로그인 중에 보낸 요청을 살펴보세요.
어떤 분야가 제출되었나요?
어떤 쿠키를 가져오셨나요?
요청한 주소에 매개변수가 있나요?
다음은 제가 운남대학교 도서관 대출 정보를 크롤링할 때 사용한 크롤러입니다. 윤다도서관 로그인 시스템의 기본 비밀번호는 학번 뒤 8자리입니다.
그러면 양식을 제출할 때의 사용자 이름과 비밀번호뿐만 아니라 숨겨진 lt
필드도 로그인 양식이 생성될 때 숨겨진 입력에 기록되므로 추출해야 합니다. 게시물의 양식 주소에는 jsessionid 필드도 있으며, 로그인 페이지에서도 이 필드를 추출하여 추가해야 합니다.
아무튼 비결을 알려드릴게요~
그래서 아주아주 중요한 포인트---
정상적인 로그인 동작을 따라하세요, 브라우저의 네트워크 디버깅 도구에서 계속 생각해 보세요.
으아악