検索

ホームページ  >  に質問  >  本文

网页爬虫 - 如何确定一个python爬取得网页是否是被压缩的?

我今天尝试爬去糗事百科的。F12后发现REquest headers中Accept-Encoding:gzip, deflate, sdch 我就以为是被压缩的,后来

response=urllib.request.urlopen(Request
print(response.info().get('Content-Encoding'))

返回的是None,请问到底如何确定否被压缩

黄舟黄舟2800日前680

全員に返信(1)返信します

  • PHP中文网

    PHP中文网2017-04-17 15:39:41

    このヘッダーが圧縮される前に、クロール時に Accept-Encoding を設定する必要があります。

    ブラウザの Accept-Encoding:gzip, deflate, sdch は、ブラウザが gzipdeflatesdch の 3 つの圧縮方法をサポートしていることを Web サイトに伝えます。つまり、これは Web サイトがサポートする圧縮方式ではなく、ブラウザーがサポートする圧縮方式を表します。

    Web サイトはサポートされている圧縮方法の 1 つを選択して返します。圧縮方法は Content-Encoding の値です。ブラウザは、この値に基づいて、対応する解凍方法を選択します。

    Yibai は gzip をサポートしていますが、Accept-Encoding が設定されていない場合、圧縮は行われません。

    リーリー

    上記のスクリプトの出力は

    です。 リーリー

    返事
    0
  • キャンセル返事