recherche

Maison  >  Questions et réponses  >  le corps du texte

python - Utilisez urllib pour récupérer le lien de téléchargement sur la page Web. Le fichier cible est au format xls, mais j'ai trouvé que le xls capturé est une table vide contenant un seul message d'erreur.

Je souhaite utiliser urllib pour récupérer le lien de téléchargement xls de la liste boursière de la Bourse de Shanghai, comme indiqué dans le petit encadré rouge ci-dessous :

J'ai constaté que les fichiers xls capturés signalaient uniquement un message d'erreur :

Comment puis-je capturer les xls avec du contenu ?

Le code est le suivant

from urllib import request
from datetime import datetime

# -*- coding:utf-8 -*-

url = 'http://query.sse.com.cn/security/stock/downloadStockListFile.do?' \
      'csrcCode=&stockCode=&areaName=&stockType=1'

myheaders = [('User - Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.2) AppleWebKit/525.13'
                              ' (KHTML, like Gecko) Version/3.1 Safari/525.13'),]

opener = request.build_opener()
opener.addheaders = myheaders
request.install_opener(opener)

local = "/Users/Mty/Downloads/data/" + str(datetime.now().date()) + " .xls"

request.urlretrieve(url, local)
阿神阿神2748 Il y a quelques jours710

répondre à tous(2)je répondrai

  • 黄舟

    黄舟2017-05-18 10:48:56

    Vous pouvez voir les informations renvoyées sur l'entreprise sur l'URL marquée d'une ligne rouge. Le reste sert à simuler le navigateur demandant cette URL. La référence dans l'en-tête de la requête ne doit pas être omise, sinon 403 sera signalé

    .

    N'oubliez pas de simuler la valeur de référence.

    http://blog.csdn.net/ssshen14...
    Il s'agit d'une solution existante

    répondre
    0
  • 曾经蜡笔没有小新

    曾经蜡笔没有小新2017-05-18 10:48:56

    Afficher les cookies, référent

    répondre
    0
  • Annulerrépondre