ホームページ  >  記事  >  バックエンド開発  >  クローラーとは何ですか? Python Web クローラーの概念の紹介

クローラーとは何ですか? Python Web クローラーの概念の紹介

不言
不言オリジナル
2018-09-15 14:33:003335ブラウズ

この記事の内容は、クローラーとは何ですか? Python Web クローラーの概念の紹介には一定の参考価値がありますので、困っている友人は参考にしていただければ幸いです。

クローラー関連の概念の紹介

a) クローラーとは:

クローラーこのプログラムは、ブラウザがインターネットをサーフィンし、インターネットからデータをクロールするプロセスをシミュレートします。

b) クローラーを実装できる言語:

1.php: クローラーを実装できます。 PHP は世界で最も美しい言語として知られています (もちろん、それは独自の主張です。つまり、Wang Po がメロンを販売しているという意味です) が、PHP はクローラでのマルチスレッドとマルチプロセスのサポートがうまくいきません。

2.java: クローラーを実装できます。 Java はクローラーの処理と実装が非常に優れており、Python と歩調を合わせられる唯一の言語であり、Python の最大のライバルです。ただし、Java クローラー コードは比較的肥大化しており、再構築のコストが高くなります。

3.c, c: クローラーを実装できます。ただし、この方法を使用してクローラーを実装することは、純粋に一部の人々 (偉い人) の能力を反映するものであり、賢明かつ合理的な選択ではありません。

4.python: クローラーを実装できます。 Python は、クローラーを実装および処理するための単純な構文、美しいコード、幅広いモジュールをサポートし、学習コストが低く、非常に強力なフレームワーク (scrapy など) を備えており、言葉では言い表せないほど優れています。いや、でも!

c) クローラーの分類: 使用シナリオに従って、次の 2 つのカテゴリに分類できます

1. ユニバーサル クローラー: ユニバーサル クローラーは検索エンジン (Baidu) です。 、Google、Yahoo など)「クロール システム」の重要な部分。主な目的は、インターネット上の Web ページをローカル コンピュータにダウンロードして、インターネット コンテンツのミラー バックアップを作成することです。

1) 検索エンジンはインターネット上の Web サイト データをどのようにクロールしますか?

a) ポータル Web サイトは、自社の Web サイトの URL を検索エンジン会社に積極的に提供します。

b) 検索エンジン会社は、DNS サービス プロバイダーと協力して Web サイトの URL を取得します

c) ポータル Web サイトは、いくつかの有名な Web サイトのフレンドリー リンクに積極的にリンクしています。

2. 集中型クローラー: 集中型クローラーは、指定されたニーズに基づいてネットワーク上の指定されたデータをクロールします。たとえば、ページ全体のすべてのデータ値を取得するのではなく、Douban 上の映画の名前と映画レビューを取得します。

d) robots.txt プロトコル:

ポータル Web サイト内の指定したページのデータをクローラー プログラムによってクロールしたくない場合は、次のようにすることができます。 pass クローラー プログラムのデータ クロールを制限するために robots.txt プロトコル ファイルを作成します。ロボット プロトコルの記述形式は、淘宝網のロボットで確認できます (www.taovao.com/robots.txt にアクセスしてください)。ただし、この協定はあくまでも口頭協定に相当し、強制的に制御するための関連技術を使用するものではないため、この協定は紳士を守るものであり、悪人を防ぐものではないことに注意してください。しかし、クローラ学習段階で作成するクローラ プログラムは、最初にロボット プロトコルを無視することができます。

e) アンチクローラー:

ポータルは、対応する戦略と技術的手段を使用して、クローラー プログラムが Web サイト データをクロールするのを防ぎます。

f) アンチクローラー:

クローラー プログラムは、対応する戦略と技術的手段を使用してポータル Web サイトのアンチクローラー手段を突破し、それによって対応するデータをクロールします。 。

以上がクローラーとは何ですか? Python Web クローラーの概念の紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。