検索

ホームページ  >  に質問  >  本文

网页爬虫 - python:爬取带有下拉框日期的数据?

需要用到这方面的数据,单独一页一页的复制了一段时间的数据,发现很是耗时,想从深圳市环保局下载空气质量历史数据。选择日期后,页面出现一个相应的数据表格,每天有24个时间点的。需要将每一天每一个小时的数据都爬下来。页面如下:
网址:http://www.szhec.gov.cn/pages/szepb/kqzl...

麻烦大家

高洛峰高洛峰2802日前2131

全員に返信(3)返信します

  • 黄舟

    黄舟2017-04-17 17:35:12

    requests.post を使用してリクエスト


    上記画像のURL


    ハッシュ値は上の図の位置にあります。

    この写真は応答です

    #coding=utf-8
    bs4 import BeautifulSoup からのインポート リクエスト

    get_url="http://www.szhec.gov.cn/pages/szepb/kqzl/TGzfwHjKqzlzs.jsp?FLAG=FIRSTFW"#ハッシュ値を取得
    post_url="http://www.szhec. gov.cn/pages/szepb/kqzl/TGzfwHjKqzlzs.jsp" #大気質時間を取得する
    html=requests.get(get_url)
    #Beautiful を使用して Web ページを解析し、ハッシュ値を取得します
    html_soup=BeautifulSoup (html .text,"html.parser")
    hash=html_soup.select("input[name=hash]")
    hash=hash[0].get('value')
    #Constructデータ
    データ={

    リーリー

    }
    #この時点で品質管理時間の情報は正しく取得されています
    tqHtml=requests.post(post_url,data=data)
    print tqHtml.text

    返事
    0
  • 怪我咯

    怪我咯2017-04-17 17:35:12

    右クリックして要素を検査し、ネットワークを表示し、時間検索を選択して、次の名前の ajax API アドレスを表示します:

    返事
    0
  • PHPz

    PHPz2017-04-17 17:35:12

    続き:
    おそらくこのコードを試しましたが、プログラムはエラーを報告せず、結果も生成しませんでした。どうしたの?
    インポートリクエスト
    import xlwt
    from bs4 import BeautifulSoup
    import datetime
    import tqdm

    def datelist(開始、終了):

    リーリー

    def get_html():

    リーリー

    def get_excel():

    リーリー

    get_excel()

    返事
    0
  • キャンセル返事