【Python】Webクローラ（1）：Webページをクローリングする意味とURLの基本構成-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

【Python】Webクローラ（1）：Webページをクローリングする意味とURLの基本構成

黄舟

Jan 21, 2017 pm 01:43 PM

1. Web クローラーの定義

Web クローラー、または Web スパイダーは非常に鮮やかな名前です。

インターネットを蜘蛛の巣に例えると、蜘蛛は巣の上を這っている蜘蛛です。
ウェブスパイダーは、リンクアドレスを通じてウェブページを検索します。

Web サイトの特定のページ (通常はホームページ) から開始し、Web ページのコンテンツを読み、Web ページ内の他のリンクアドレスを見つけます。

次に、これらのリンクアドレスを通じて次の Web ページを見つけます。このサイクルは、Web サイトが表示されるまで続きます。すべての Web ページがクロールされるまでです。

インターネット全体が Web サイトとみなされる場合、ウェブスパイダーはこの原理を使用して、インターネット上のすべての Web ページをクロールできます。

このように、Web クローラーはクローラー、Web ページを巡回するプログラムです。

Web クローラーの基本的な操作は、Web ページをクロールすることです。

では、どうすれば希望通りのページを取得できるのでしょうか？

まずはURLから始めましょう。

2. Web ページを閲覧するプロセス

Web ページをクロールするプロセスは、読者が通常 IE ブラウザを使用して Web ページを閲覧する方法と実際には同じです。

たとえば、ブラウザのアドレスバーにアドレス www.baidu.com を入力します。

Web ページを開くプロセスは、実際には、ブラウザーが閲覧「クライアント」としてサーバーにリクエストを送信し、サーバー側のファイルをローカルに「取得」し、それらを解釈して表示するというものです。

HTML は、タグを使用してコンテンツをマークし、解析して区別するマークアップ言語です。

ブラウザの機能は、取得した HTML コードを解析し、元のコードを直接表示される Web サイトのページに変換することです。

3. URI と URL の概念と例

簡単に言えば、URL はブラウザ側で入力された文字列 http://www.baidu.com です。

URL を理解する前に、まず URI の概念を理解する必要があります。

URIとは何ですか?

HTML ドキュメント、画像、ビデオクリップ、プログラムなど、Web 上で利用可能なすべてのリソースは、Universal Resource Identifier (URI) によって検索されます。

URI は通常、次の 3 つの部分で構成されます:

①リソースにアクセスするための命名メカニズム、

②リソースが保存されているホスト名、

③パスで表されるリソース自体の名前。

次の URI のようにします:
http://www.why.com.cn/myhtml/html1223/

次のように説明できます:

①これは HTTP プロトコルを通じてアクセスできるリソースです

② ホスト www.webmonkey.com.cn 上にあり、

③ パス「/html/html40」を通じてアクセスします。

4. URL の理解と例

URL は URI のサブセットです。 Uniform Resource Locatorの略で、「統一リソースロケーター」と訳されます。

簡単に言うと、URL はインターネット上の情報リソースを記述する文字列で、主にさまざまな WWW クライアントプログラムやサーバープログラムで使用されます。

URL は、ファイル、サーバーアドレス、ディレクトリなどのさまざまな情報リソースを統一された形式で記述するために使用できます。

URL の一般的な形式は次のとおりです (角括弧 [] はオプション):

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL の形式は 3 つの部分で構成されます:

①最初の部分はプロトコル (またはサービスメソッド) です。

② 2 番目の部分は、リソースが保存されているホストの IP アドレスです (ポート番号を含む場合もあります)。

③ 3 番目の部分は、ディレクトリやファイル名などのホストリソースの特定のアドレスです。

前半部分と後半部分は「://」記号で区切られ、

後半部分と後半部分は「/」記号で区切られます。

第 1 部と第 2 部は必須であり、第 3 部は省略できる場合もあります。

5. URL と URI の単純な比較

URI は URL の下位レベルの抽象化であり、文字列テキスト標準です。

つまり、URIは親クラスに属し、URLはURIのサブクラスに属します。 URL は URI のサブセットです。

URI の定義は、Uniform Resource Identifier、

URL の定義は、Uniform Resource Locator です。

2 つの違いは、URI がリクエストサーバーへのパスを表し、そのようなリソースを定義することです。

URL には、このリソースへのアクセス方法も説明されています (http://)。

2 つの URL の小さな例を見てみましょう。

1. HTTP プロトコルの URL の例:
ハイパーテキスト転送プロトコル HTTP を使用して、ハイパーテキスト情報サービスのリソースを提供します。

例: http://www.peopledaily.com.cn/channel/welcome.htm

コンピュータのドメイン名は www.peopledaily.com.cn です。

ハイパーテキストファイル (ファイルタイプは .html) は、/channel ディレクトリ内の welcome.htm です。

これは中国人民日報のコンピューターです。

例: http://www.rol.cn.NET/talk/talk1.htm

コンピュータのドメイン名は www.rol.cn.Net です。

ハイパーテキストファイル (ファイルタイプは .html) は、/talk ディレクトリ内の talk1.htm です。

赤チャットルームのアドレスです。ここから赤チャットルームのルーム1に入ることができます。

2.ファイル URL
URL を使用してファイルを表す場合、サーバーモードはファイルで表され、その後にホスト IP アドレス、ファイルアクセスパス (つまり、ディレクトリ)、ファイル名などの情報が続きます。

ディレクトリ名やファイル名は省略できる場合もありますが、「/」記号は省略できません。

例: file://ftp.yoyodyne.com/pub/files/foobar.txt

上記の URL は、ホスト ftp.yoyodyne.com の pub/files/ ディレクトリに保存されているファイルを表します。 foobar.txt。

例: file://ftp.yoyodyne.com/pub

は、ホスト ftp.yoyodyne.com 上のディレクトリ/pub を表します。

例: file://ftp.yoyodyne.com/

ホスト ftp.yoyodyne.com のルートディレクトリを表します。

クローラーの主な処理オブジェクトは URL であり、URL アドレスに基づいて必要なファイルのコンテンツを取得し、それをさらに処理します。

したがって、Web クローラーを理解するには、URL を正確に理解することが重要です。

上記は、[Python] Web クローラー (1): Web ページの意味と URL の基本構成をクロールする、その他の関連コンテンツについては、PHP 中国語 Web サイト (www.php.cn) に注目してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Pythonの主な目的：柔軟性と使いやすさApr 17, 2025 am 12:14 AM

Pythonの柔軟性は、マルチパラダイムサポートと動的タイプシステムに反映されていますが、使いやすさはシンプルな構文とリッチ標準ライブラリに由来しています。 1。柔軟性：オブジェクト指向、機能的および手続き的プログラミングをサポートし、動的タイプシステムは開発効率を向上させます。 2。使いやすさ：文法は自然言語に近く、標準的なライブラリは幅広い機能をカバーし、開発プロセスを簡素化します。

Python：汎用性の高いプログラミングの力Apr 17, 2025 am 12:09 AM

Pythonは、初心者から上級開発者までのすべてのニーズに適した、そのシンプルさとパワーに非常に好まれています。その汎用性は、次のことに反映されています。1）学習と使用が簡単、シンプルな構文。 2）Numpy、Pandasなどの豊富なライブラリとフレームワーク。 3）さまざまなオペレーティングシステムで実行できるクロスプラットフォームサポート。 4）作業効率を向上させるためのスクリプトおよび自動化タスクに適しています。

1日2時間でPythonを学ぶ：実用的なガイドApr 17, 2025 am 12:05 AM

はい、1日2時間でPythonを学びます。 1.合理的な学習計画を作成します。2。適切な学習リソースを選択します。3。実践を通じて学んだ知識を統合します。これらの手順は、短時間でPythonをマスターするのに役立ちます。

Python vs. C：開発者の長所と短所Apr 17, 2025 am 12:04 AM

Pythonは迅速な開発とデータ処理に適していますが、Cは高性能および基礎となる制御に適しています。 1）Pythonは、簡潔な構文を備えた使いやすく、データサイエンスやWeb開発に適しています。 2）Cは高性能で正確な制御を持ち、ゲームやシステムのプログラミングでよく使用されます。

Python：時間のコミットメントと学習ペースApr 17, 2025 am 12:03 AM

Pythonを学ぶのに必要な時間は、人によって異なり、主に以前のプログラミングの経験、学習の動機付け、学習リソースと方法、学習リズムの影響を受けます。現実的な学習目標を設定し、実用的なプロジェクトを通じて最善を尽くします。

Python：自動化、スクリプト、およびタスク管理Apr 16, 2025 am 12:14 AM

Pythonは、自動化、スクリプト、およびタスク管理に優れています。 1）自動化：OSやShutilなどの標準ライブラリを介してファイルバックアップが実現されます。 2）スクリプトの書き込み：Psutilライブラリを使用してシステムリソースを監視します。 3）タスク管理：スケジュールライブラリを使用してタスクをスケジュールします。 Pythonの使いやすさと豊富なライブラリサポートにより、これらの分野で優先ツールになります。

Pythonと時間：勉強時間を最大限に活用するApr 14, 2025 am 12:02 AM

限られた時間でPythonの学習効率を最大化するには、PythonのDateTime、時間、およびスケジュールモジュールを使用できます。 1. DateTimeモジュールは、学習時間を記録および計画するために使用されます。 2。時間モジュールは、勉強と休息の時間を設定するのに役立ちます。 3.スケジュールモジュールは、毎週の学習タスクを自動的に配置します。

Python：ゲーム、GUIなどApr 13, 2025 am 12:14 AM

PythonはゲームとGUI開発に優れています。 1）ゲーム開発は、2Dゲームの作成に適した図面、オーディオ、その他の機能を提供し、Pygameを使用します。 2）GUI開発は、TKINTERまたはPYQTを選択できます。 TKINTERはシンプルで使いやすく、PYQTは豊富な機能を備えており、専門能力開発に適しています。

See all articles