ホームページ >バックエンド開発 >Python チュートリアル >完全なクローラーフレームワークを作成する方法

完全なクローラーフレームワークを作成する方法

この記事では主に、クローラーフレームワークのリクエストメソッドを完全に記述する方法について説明します。これは非常に参考になるので、皆さんのお役に立てれば幸いです。編集者をフォローして見てみましょう。皆さんのお役に立てれば幸いです。

クローラーフレームワークを生成します:

1. スクレイピークローラープロジェクトを作成します

2. スパイダークローラーを構成します

4.クローラーを実行する、Web ページを取得します

特定の操作:

1. プロジェクトを作成します

という名前のプロジェクトを定義します: python123demo

方法:

cm d、d：Dドライブに入る, cd pycodes ファイルpycodes

を入力し、

scrapy startproject python123demo

と入力すると、pycodesでファイルが生成されます:

_init_.py はそうではありませんユーザーの書き込みが必要です

2. プロジェクトでスクレイピークローラーを生成します

コマンドを実行し、クローラー名とクロールされた Web サイトを指定します

クローラー:

demo という名前のスパイダーを生成します

demo.py のみを生成します。その内容は次のとおりです:

name = 'demo' 現在のクローラー名は、demo

です許可_domains = " Web サイトのドメイン名の下にあるリンクをクロールします。ドメイン名は cmd コマンドコンソールから入力されます

start_urls = [] クロールされた最初のページ

parse() は、対応するページを処理するために使用されます。コンテンツを解析して辞書を形成し、新しい URL クローリングリクエストを検出します

3. ニーズを満たすように生成されたスパイダークローラーを構成します

解析されたページをファイルに保存します

デモを変更します。 py ファイル

4. クローラーを実行して Web ページを取得します

cmd を開き、クロールするコマンドラインを入力します

その後、コンピューターにエラーが表示されました

Windows システムこの問題を解決するには、Py32Win モジュールをインストールする必要がありますが、公式 Web サイトのリンクから exe を直接インストールすると、何百ものエラーが発生します。

pip3 install pypiwin32

これは py3 の解決策です

注: py3 バージョンに対して pip install pypiwin32 コマンドを使用すると、エラーが発生します

インストールが完了したら、再度クローラーを実行してください、成功しました!

キャプチャページは、demo.html ファイルに保存されます

demo.py 対応する完全なコード:

2 つのバージョンは同等です:

以上が完全なクローラーフレームワークを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

続きを見る

完全なクローラー フレームワークを作成する方法