クローラーの仕組み-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

クローラーの仕組み

迷茫

Mar 25, 2017 pm 04:58 PM

クローラーのしくみ

ウェブクローラー、あるいはウェブスパイダーとは、とても鮮やかな名前です。インターネットを蜘蛛の巣に例えると、蜘蛛は巣の上を這っている蜘蛛です。 Web スパイダーは、リンクアドレスを通じて Web ページを検索します。 Web サイトの特定のページ (通常はホームページ) から開始して、Web ページのコンテンツを読み、Web ページ内の他のリンクアドレスを見つけ、次にこれらのリンクアドレスを通じて次の Web ページを見つけます。このサイクルは、この Web サイトのすべてのリンクが完了するまで続きます。すべての Web ページがクロールされるまで。インターネット全体が Web サイトとみなされる場合、Web スパイダーはこの原理を使用して、インターネット上のすべての Web ページをクロールできます。このように、Web クローラーはクローラー、Web ページを巡回するプログラムです。 Web クローラーの基本的な操作は、Web ページをクロールすることです。では、どうすれば希望通りのページを取得できるでしょうか? URLから始めましょう。

Web ページをクロールするプロセスは、実際には、読者が通常 IE ブラウザを使用して Web ページを閲覧する方法と同じです。たとえば、ブラウザのアドレスバーにアドレス www.baidu.com を入力します。 Web ページを開くプロセスは、実際にはブラウザが閲覧「クライアント」としてサーバーにリクエストを送信し、サーバー側のファイルをローカルで「取得」し、それらを解釈して表示するというものです。 HTML は、タグを使用してコンテンツをマークし、解析して区別するマークアップ言語です。ブラウザの機能は、取得した HTML コードを解析し、元のコードを直接表示される Web サイトのページに変換することです。 URLとは簡単に言えば、ブラウザに入力されたURLの文字列です。 URL を理解する前に、まず URI の概念を理解する必要があります。

URIとは何ですか？

HTMLドキュメント、画像、ビデオクリップ、プログラムなど、Web上で利用可能なすべてのリソースは、Universal Resource Identifier（URI）によって見つけられます。

URI は通常 3 つの部分で構成されます:

リソースにアクセスするための名前付けメカニズム、

リソースを保存するためのホスト名、
パスで表されるリソース自体の名前。
これは、HTTP プロトコル経由でアクセスできるリソースです。
ホスト上にあり、パス "/html/html40" 経由でアクセスされます
。
2. URL の理解と例

URL は URI のサブセットです。 Uniform Resource Locatorの略で、「統一リソースロケーター」と訳されます。平たく言えば、URL はインターネット上の情報リソースを記述する文字列であり、主にさまざまな WWW クライアントプログラムやサーバープログラムで使用されます。 URL を使用すると、ファイル、サーバーアドレス、ディレクトリなどのさまざまな情報リソースを統一された形式で記述することができます。 URL の一般的な形式は次のとおりです (角括弧 [] が付いているものはオプションです):

　　protocol :// hostname[:port] / path / [;parameters][?query]#fragment

URL の形式は 3 つの部分で構成されます: 最初の部分はプロトコル (またはサービスメソッド) です。

2 番目の部分は、リソースが保存されているホストの IP アドレスです (ポート番号を含む場合もあります)。
3 番目の部分は、ディレクトリやファイル名などのホストリソースの特定のアドレスです。
前半と後半は「://」記号で区切られ、後半と後半は「/」記号で区切られています。第 1 部と第 2 部は必須ですが、第 3 部は省略できる場合もあります。

3. URLとURIの単純な比較

URIはURLの下位レベルの抽象化であり、文字列テキストの標準です。つまり、URI は親クラスに属し、URL は URI のサブクラスに属します。 URL は URI のサブセットです。 URI の定義は次のとおりです。Uniform Resource Identifier。URL の定義は次のとおりです。Uniform Resource Locator。 2 つの違いは、URI がリクエストサーバーへのパスを表し、そのようなリソースを定義することです。 URL には、リソースへのアクセス方法 (http://) も記載されています。

URL の小さな例を 2 つ見てみましょう。

1. HTTP プロトコルの URL の例: ハイパーテキスト転送プロトコル HTTP を使用して、ハイパーテキスト情報サービスのリソースを提供します。

ハイパーテキストファイル (ファイルタイプは .html) は、ディレクトリ /channel にある welcome.htm です。

これは中国人民日報のコンピューターです。

コンピューターのドメイン名は www.rol.cn.Net です。

ハイパーテキストファイル (ファイルタイプは .html) は、/talk ディレクトリ内の talk1.htm です。

赤いチャットルームのアドレスです。ここから赤いチャットルームの最初の部屋に入ることができます。

2．ファイル URL

URL を使用してファイルを表す場合、サーバーモードはファイルで表され、その後にホスト IP アドレス、ファイルアクセスパス (つまり、ディレクトリ)、ファイル名などの情報が続きます。

ディレクトリ名やファイル名は省略できる場合もありますが、「/」記号は省略できません。

クローラーの主な処理オブジェクトは URL であり、URL アドレスに基づいて必要なファイルのコンテンツを取得し、それをさらに処理します。

したがって、Web クローラーを理解するには、URL を正確に理解することが重要です。

以上がクローラーの仕組みの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

2時間のPython計画：現実的なアプローチApr 11, 2025 am 12:04 AM

2時間以内にPythonの基本的なプログラミングの概念とスキルを学ぶことができます。 1.変数とデータ型、2。マスターコントロールフロー（条件付きステートメントとループ）、3。機能の定義と使用を理解する4。

Python：主要なアプリケーションの調査Apr 10, 2025 am 09:41 AM

Pythonは、Web開発、データサイエンス、機械学習、自動化、スクリプトの分野で広く使用されています。 1）Web開発では、DjangoおよびFlask Frameworksが開発プロセスを簡素化します。 2）データサイエンスと機械学習の分野では、Numpy、Pandas、Scikit-Learn、Tensorflowライブラリが強力なサポートを提供します。 3）自動化とスクリプトの観点から、Pythonは自動テストやシステム管理などのタスクに適しています。

2時間でどのくらいのPythonを学ぶことができますか？Apr 09, 2025 pm 04:33 PM

2時間以内にPythonの基本を学ぶことができます。 1。変数とデータ型を学習します。2。ステートメントやループの場合などのマスター制御構造、3。関数の定義と使用を理解します。これらは、簡単なPythonプログラムの作成を開始するのに役立ちます。

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか？Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

Python 3.6にピクルスファイルをロードするときに「__Builtin__」モジュールが見つからない場合はどうすればよいですか？Apr 02, 2025 am 07:12 AM

Python 3.6のピクルスファイルのロードレポートエラー：modulenotFounderror：nomodulenamed ...

風光明媚なスポットコメント分析におけるJieba Wordセグメンテーションの精度を改善する方法は？Apr 02, 2025 am 07:09 AM

風光明媚なスポットコメント分析におけるJieba Wordセグメンテーションの問題を解決する方法は？風光明媚なスポットコメントと分析を行っているとき、私たちはしばしばJieba Wordセグメンテーションツールを使用してテキストを処理します...

正規表現を使用して、最初の閉じたタグと停止に一致する方法は？Apr 02, 2025 am 07:06 AM

正規表現を使用して、最初の閉じたタグと停止に一致する方法は？ HTMLまたは他のマークアップ言語を扱う場合、しばしば正規表現が必要です...

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティングサービスをチェックしてください。

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。