ホームページ  >  記事  >  バックエンド開発  >  Python クローラーのリクエスト ヘッダーを設定する方法

Python クローラーのリクエスト ヘッダーを設定する方法

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼オリジナル
2019-06-20 14:30:382846ブラウズ

Web クローリングを要求すると、出力されるテキスト情報に「申し訳ありませんが、アクセスできません」などの文字が表示され、クローリングが禁止されていることを意味します。この問題は、クローリング防止メカニズムによって解決する必要があります。

ヘッダーはリクエストのクローリング防止の問題を解決する方法の 1 つであり、この Web ページのサーバー自体に入り込んでデータをクローリングしているふりをするのと同じです。

クローラー対策 Web ページの場合、Web サイトにアクセスするブラウザーをシミュレートするヘッダー情報を設定できます。

Python クローラーのリクエスト ヘッダーを設定する方法

headers

Google または Firefox ブラウザで、Web ページをクリックします。右クリック – [検査] をクリックし、[その他のツール] – [開発] をクリックするか、ツール; F12 を直接押すこともできます。次に、Fn F5 を押して Web ページを更新し、要素を表示します。

一部のブラウザでは、クリック: 右クリック -> 要素の表示、更新

関連する推奨事項: 「Python ビデオ チュートリアル##」 #>>

Python クローラーのリクエスト ヘッダーを設定する方法

注: ヘッダーには多くの内容が含まれていますが、一般的に使用される主なものはユーザー エージェントとホストであり、キー ペアの形式で表示されます。 -agent is 辞書のキー ペア フォームがヘッダーのコンテンツとして使用されている場合、逆クロールは成功する可能性があり、他のキー ペアは必要ありません。それ以外の場合は、ヘッダーの下にさらにキー ペア フォームを追加する必要があります。

設定

import urllib2
import urllib
values={"username":"xxxx","password":"xxxxx"}
data=urllib.urlencode(values)
url= "https://ssl.gstatic.com/gb/images/v2_730ffe61.png"
user_agent="Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"
referer='http://www.google.com/'
headers={"User-Agent":user_agent,'Referer':referer}
request=urllib2.Request(url,data,headers)
response=urllib2.urlopen(request)
print response.read()

以上がPython クローラーのリクエスト ヘッダーを設定する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。