python - 如何在scrapy中带cookie访问？

Question

简单的通过scrapy访问雪球都报错，我知道要先访问一次雪球，需要cookie信息才能真正打开连接。scrapy据说可以不用在意cookie，会自动获取cookie。我按照这个连接在middleware里已经启用cookie，http://stackoverf...

PHP中文网 · Answer

又試了一下.. 確實不需要登入哦.. 是我想太多了...直接先請求xueqiu.com,拿到cookie後再請求一下API的地址就可以了.. 原來如此..

==============羞恥的分割線=============

經我驗證，你需要登入...

import scrapy
import hashlib
from scrapy.http import FormRequest, Request

class XueqiuScrapeSpider(scrapy.Spider):
    name = "xueqiu_scrape"
    allowed_domains = ["xueqiu.com"]

    def start_requests(self):
        m = hashlib.md5()
        m.update(b"your password")  # 在这里填入你的密码
        password = m.hexdigest().upper()
        form_data={
            "telephone": "your account",   # 在这里填入你的用户名
            "password": password,
            "remember_me": str(),
            "areacode": "86",
        }
        print(form_data)
        return [FormRequest(
            url="https://xueqiu.com/snowman/login", 
            formdata=form_data, 
            meta={"cookiejar": 1},
            callback=self.loged_in
            )]

    def loged_in(self, response):
        # print(response.url)
        return [Request(
            url="https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=1&size=1",
            meta={"cookiejar": response.meta["cookiejar"]},
            callback=self.get_result,
            )]

    def get_result(self, response):
        print(response.body)

另外，網站確實對User-Agent进行了验证，可以在settings.py中进行设置，当然自己写在爬虫文件里也可以。密码是MD5加密后的字符串。
哦对，补充一点，因为我是用手机注册的，所以form_data是这些字段，如果你是其他方式，只需要用Chrome工具看一下POST请求有哪些参数，自己修改一下form_data的內容就行了。

黄舟 · Answer

哈哈，謝謝咯，解決了幾天的困惑。之前也透過request來做不需要登錄，貼上程式碼，

session = requests.Session()
session.headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
}
session.get('https://xueqiu.com')
for page in range(1,100):
    url = 'https://xueqiu.com/stock/f10/finmainindex.json?symbol=SZ000001&page=%s&size=1' % page
    print url
    r = session.get(url)
#print r.json().list
    a = r.text

python - 如何在scrapy中带cookie访问？

全部回覆(2)我來回復