クローラーとは何か、およびクローラーの基本プロセスの概要について説明しました 、今日私が与えるのは、皆さんが持ってくるものは、基本的なプロセス、リクエストとレスポンスとは何かについての詳細な紹介です。
#リクエスト
1. リクエストとは何ですか?
#ブラウザは、URL が存在するサーバーに情報を送信します。このプロセスは HTTP リクエストと呼ばれます。リクエスト メソッド: リクエスト メソッドの主な種類は、GET と POST、HEAD、PUT、DELETE などです。 GET リクエストのリクエスト パラメータは URL リンクの後に表示されます。たとえば、Baidu を開いて「写真」を検索すると、リクエストされた URL リンクは https://www.baidu.com/s? wd=写真。 POST リクエストのリクエスト パラメータはリクエストに保存され、URL リンクの後ろには表示されません。たとえば、Zhihu にログインしてユーザー名とパスワードを入力すると、ブラウザ開発者ツールの [ネットワーク] ページが表示されます。リクエスト リクエストには、フォーム データのキーと値のペア情報が含まれており、そこにログイン情報が保存され、アカウント情報のセキュリティを保護するのに役立ちます。リクエスト URL: URL の完全名は、Uniform Resource Locator であり、これを URL と呼びます。たとえば、画像、音楽ファイル、Web ドキュメントなどは、一意の URL によって決定できます。そこに含まれる情報は、ファイルの場所とブラウザがそれを処理する方法を示します。リクエスト ヘッダー: リクエスト ヘッダーに次の内容が含まれる場合ユーザーエージェント (ブラウザーのリクエストヘッダーを指定)、ホスト、Cookie およびその他の情報などのリクエストヘッダー情報; リクエストボディ: リクエストボディは、ログインによって送信されたログイン情報データなど、リクエストによって運ばれる追加データです。形状。
#レスポンス
1. レスポンスとは何ですか?
サーバーは、ブラウザーから送信された情報を受信すると、ブラウザーから送信された情報の内容に基づいて適切に処理し、メッセージをブラウザーに送り返します。このプロセスは次のとおりです。 HTTPレスポンスと呼ばれます。
2.応答には何が含まれますか?
応答ステータス: 成功の場合は 200、ジャンプ ページの場合は 301、ページが見つからない場合は 404、サーバー エラーの場合は 502 など、多数の応答ステータスがあります。応答ヘッダー: コンテンツ タイプ、コンテンツ長など、サーバー情報、Cookie 設定など; 応答本文: Web ページの HTML コード、画像バイナリ データなど、要求されたリソースのコンテンツを含む、応答本文の最も重要な部分。
簡単なデモンストレーションimport requests # 导入requests库,需要安装 # 模拟成浏览器访问的头 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('https://www.baidu.com',headers=headers) print(resp.text) # 打印出网页源代码 print(resp.status_code) # 打印出状态码正常に実行されると、印刷された HTML ソース コードと 200 ステータス コードが表示されます。これは基本的に、クローラーのリクエストとレスポンスのプロセスを実装します。
以上がクローラーの基本的なプロセスのリクエストとレスポンスの概要の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。