ホームページ >ウェブフロントエンド >htmlチュートリアル >クローラーズ_html/css_WEB-ITnose の理論的知識の蓄積

クローラーズ_html/css_WEB-ITnose の理論的知識の蓄積

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル
2016-06-21 08:54:491208ブラウズ

参考資料: Wang Hai: Python Web Crawler W3School HTML チュートリアル「コンピューター ネットワーク 第 2 版」 Xie Xiren

Web クローラーは、特定のルールに従った自動クローラーです。 World Wide Web から情報を効率的にクロールするプログラムまたはスクリプト。クローラーは Web ページを検索し、Web ページのリンク アドレスを通じて Web ページ コンテンツを取得し、Web ページ内の他のリンクに従って継続的にクロールします。

1 Web を閲覧するプロセス

Web を閲覧するプロセスは、実際には、ブラウザが閲覧「クライアント」として、サーバーを「キャッチ」するリクエストをサーバーに送信します。 -side files Local、次に説明して表示します。

  • Uniform Resource Locator URL を使用して World Wide Web 上のさまざまなドキュメントをマークし、各ドキュメントにインターネット全体内で一意の識別子 URL を与えます。
  • Hypertext Transfer Protocol HTTP を使用して World Wide Web 上のさまざまな接続を実現し、確実な送信のために TCP 接続を使用します。
  • ハイパーテキスト マークアップ言語 HTML を使用すると、Web デザイナーはこのページ上のどこかからのリンクを簡単に使用して、任意の Web ページにリンクし、それを自分のホスト画面に表示できます。

2 Uniform Resource Locator URL

URL は、インターネットから取得したリソースの場所と、それらのリソースへのアクセス方法を表すために使用されます。 URL はリソースの場所の抽象的な識別メソッドを提供し、このメソッドを使用してリソースを見つけます。リソースが見つかる限り、システムはリソースに対するアクセス、更新、置換、属性の検索などのさまざまな操作を実行できます。 URL は、ファイル名のネットワーク全体の拡張子に相当します。したがって、URL は、インターネットに接続されたマシン上のアクセス可能なオブジェクトへのポインタです。オブジェクトごとにアクセスに使用されるプロトコルが異なるため、URL でオブジェクトの読み取り時に使用されるプロトコルを指定することもできます。 URL の一般的な形式は次のとおりです。

 <协议>://<主机>:<端口>/<路径>

プロトコルは、http、ftp など、World Wide Web ドキュメントを取得するために使用されるプロトコルを指します。ホストは、ホストのドメイン名を指します。ネットワーク文書が存在します。ポートとパスは省略できる場合があります。 HTTP プロトコルは、World Wide Web 上のサイトにアクセスするために使用されます。HTTP のデフォルトのポート番号は 80 で、通常は省略できます。ファイル パスを省略した場合、URL はインターネット上のホームページを指します。例: www.baidu.com。

3 ハイパーテキスト転送プロトコル HTTP

HTTP プロトコルは、ブラウザが World Wide Web サーバーに World Wide Web ドキュメントを要求する方法、およびサーバーがドキュメントをブラウザに送信する方法を定義します。以下の図は、World Wide Web の仕組みの概要を示しています。

World Wide Web の作業プロセス

HTTP では、HTTP クライアントと HTTP サーバー間のすべての対話が、ASCII コードと " MIME のような」応答に応じて、HTTP メッセージは通常、TCP 接続を使用して送信されます。

HTTP には、リクエスト メッセージ (クライアントからサーバーに送信されるリクエスト メッセージ) とレスポンス メッセージ (サーバーからクライアントへの応答) の 2 種類のメッセージがあります。 HTTP リクエスト メッセージとレスポンス メッセージは 3 つの部分で構成されます。2 つのメッセージ形式の違いは、スタートラインが異なることです。

  1. スタートライン は、リクエストメッセージかレスポンスメッセージかを区別するために使用されます。開始行は、2 つのメッセージでそれぞれ リクエスト行ステータス行 と呼ばれます。
  2. ヘッダー行 は、ブラウザーまたはメッセージの件名に関する情報を記述するために使用されます。
  3. Entity body このフィールドは通常、要求メッセージでは使用されず、応答メッセージにはこのフィールドが含まれない場合があります。

リクエスト行には、 メソッド、リクエスト リソース URL、HTTP バージョン の 3 つの内容のみがあります。次の表に、リクエスト メッセージで一般的に使用されるメソッドをいくつか示します。

方法 意义
GET 请求读取URL标志的信息
OPTION 请求一些选项的信息
HEAD 请求读取URL标志信息的首部
POST 给服务器添加信息,如注释
PUT 在致命的URL下存储一个文档
DELETE 删除致命的URL所标志的资源
CONNECT 用于代理服务器
GET http://www.bilibili.com/video/douga.html  HTTP/1.1

下面是一个请求报文的例子

请求报文

4 超文本标记语言HTML

HTML指的是超文本标记语言,是使用标记标签来描述网页的。

HTML标签是由尖括号包围的关键词,比如100db36a723c770d327fc0aef2ce13b1。HTML标签通常是成对出现的,标签对中的第一个标签是开始标签,第二个是结束标签,比如a4b561c25d9afb9ac8dc4d70affff419和0d36329ec37a2cc24d42c7229b69747a。

HTML文档包含HTML标签和纯文本,也称为网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用标签来解释页面的内容。

四个基本的标签

  • 4a249f0d628e2318394fd9b75b4636b1 - 4e9ee319e0fa4abc21ff286eeb145ecc等:定义HTML 标题。
  • e388a4556c0f65e1904146cc1a846bee:定义HTML 段落。
  • 3499910bf9dac5ae3c52d5ede7383485:定义HTML 链接。
  • a1f02c36ba31691bcfe87b2722de723b:定义HTML 图像。
  • dc6dce4a544fdca2df29d5ac0ea9906b :HTML分组标签,定义文档中的分区或节。
<h1>This is a heading</h1><h2>This is a heading</h2><h3>This is a heading</h3><p>This is a paragraph.</p><p>This is another paragraph.</p><a href="http://www.w3school.com.cn">This is a link</a><img src="w3school.jpg" width="104" height="142" />

HTML 元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码。元素的内容是开始标签与结束标签之间的内容。大多数 HTML 元素可以嵌套(可以包含其他 HTML 元素),HTML 文档由嵌套的 HTML 元素构成。如下例包含3个HTML元素。

<html>    <body>        <p>This is my first paragraph.</p>    </body></html>

HTML 属性:HTML 标签可以拥有属性,属性提供了有关 HTML 元素的更多的信息,属性总是以名称/值对的形式出现,比如:name="value",属性总是在 HTML 元素的开始标签中规定;属性值应该始终被包括在引号内,双引号是最常用的,不过使用单引号也没有问题。

HTML 链接由3499910bf9dac5ae3c52d5ede7383485标签定义,链接的地址在 href 属性中指定:e8f57c4e53c42d7677e16a4901b7298aThis is a link5db79b134e9f6b82c0b36e0489ee08ed

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。