検索
ホームページバックエンド開発Python チュートリアルPython クローラー フレームワーク Scrapy をインストールして使用する手順

1. クローラー フレームワーク Scarpy の紹介
Scrapy は、Web サイトをクロールし、Web サイトのページから構造化データを取得する、高速で高レベルの画面スクレイピングおよび Web クローラー フレームワークです。監視と自動テストについては、Scrapy は完全に Python で実装されており、コードは Github でホストされており、ネットワーク通信を処理するための Twisted の非同期ネットワーク ライブラリに基づいて Linux、Windows、Mac、BSD プラットフォームで実行できます。ユーザーは開発をカスタマイズするだけで済みます。いくつかのモジュールで、Web コンテンツやさまざまな画像をクロールするクローラーを簡単に実装できます。

2. Scrapy インストールガイド

インストール手順では、次のコンテンツがすでにインストールされていることを前提としています: Python2.7lxmlOpenSSL Scrapy をインストールするには、Python のパッケージ管理ツール pip または easy_install を使用します。
Pip インストール方法:

コードをコピー コードは次のとおりです:
pip install Scrapy
easy_install インストールメソッド:
コードをコピー コードは次のとおりです:
easy_install Scrapy

3. Ubuntu プラットフォームでの環境設定

1. Python パッケージ管理ツール
現在のパッケージ管理ツール チェーンは easy_install/pip + distribution/setuptools
distutils: 非常に単純なアプリケーション シナリオに適した Python 独自の基本インストール ツールです。 distutils には多くの拡張機能が作成されており、特にパッケージの依存関係メカニズムが一部の Python サブコミュニティで事実上の標準になっています。
distribute: setuptools の開発の進行が遅いため、Python 3 はサポートされていません。コードは混乱しており、setuptools を置き換えて公式の標準ライブラリとして受け入れられることを望んでいるプログラマが、コードを最初からリファクタリングし、関数を追加するのに役立ち、短期間でコミュニティに setuptools/distribute のみの配布を受け入れさせました。 distutils;
easy_install: setuptools と distribution に付属するインストール スクリプト。つまり、setuptools または distribution がインストールされると、easy_install も自動的に検出されます。これは、Python によって公式に保守されているパッケージ ソースです。サードパーティの Python パッケージをインストールするのに非常に便利です。
pip を使用します。pip の目的は非常に明確です。easy_install には多くの欠点があります。インストール トランザクションは非アトミックな操作であり、サポートされるのはsvn はアンインストール コマンドを提供せず、一連のパッケージをインストールするときにスクリプトを作成する必要があります。pip は上記の問題を解決し、新しい事実上の標準となった virtualenv は優れたパートナーとなっています。
インストールプロセス:

インストール、配布



コードのコピー コードは次のとおりです: $curl -O http:/ /python-distribute.org/distribute_setup.py $ python distribution_setup.py

pip をインストールします:

コードをコピーします コードは次のとおりです次のように: $curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py $ [sudo] python get-pip.py

2. Scrapy のインストール Windows プラットフォームでは、パッケージ管理ツールを使用するか、さまざまな依存バイナリ パッケージを手動でダウンロードできます: pywin32、Twisted、zope.interface、lxml、pyOpenSSL (Ubuntu9.10 以降のバージョン) Ubuntu が提供する python-scrapy パッケージは最新の Scrapy に適合するには古すぎるか、遅すぎるため、使用しないことが公式に推奨されています。解決策は、すべての依存ライブラリを提供し、最新の Scrapy に適した公式の Ubuntu パッケージを使用することです。バグは継続的な更新と高い安定性を提供します。Ubuntu 9.10 以降のバージョンでの Scrapy のインストール方法は次のとおりです。


>

コードをコピー コードは次のとおりです:sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 - -recv 627220E7
/etc/apt/sources.list.d/scrapy.list ファイルを作成

コードをコピーコードは次のとおりです:echo 'deb http://archive.scrapy.org/ubuntuscrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list


コードをコピーしますコードは次のとおりです: sudo apt-get update && sudo apt-get installscrapy-VERSION
3. Scrapy 依存ライブラリのインストールubuntu12.04 での Scrapy 依存ライブラリのインストール

インポートエラー: w3lib.http という名前のモジュールがありません


コードをコピーします コードは次のとおりです: pip install w3lib
ImportError: No module namesTwisted

コードをコピーコードは次のとおりです。 pip installTwisted
ImportError: No module names lxml.html

Copy codeコードは次のとおりです:pip install lxml
解決策: エラー: libxml/xmlversion.h: そのようなファイルまたはディレクトリはありません

コードをコピーします コードは次のとおりです:
apt-get install libxml2-dev libxslt-dev
apt-get install python -lxml
解決策: ImportError: cssselect という名前のモジュールがありません

コードをコピー コードは次のとおりです:
pip install cssselect
ImportError: OpenSSL という名前のモジュールがありません
コードをコピーします コードは次のとおりです:
pip install pyOpenSSL

4. 独自のクローラ開発をカスタマイズします
ファイル ディレクトリに切り替えて、新しいプロジェクトを開きます

コードをコピーします コードは次のとおりです。
卑劣な startproject テスト

声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
Pythonのハイブリッドアプローチ:コンピレーションと解釈を組み合わせたPythonのハイブリッドアプローチ:コンピレーションと解釈を組み合わせたMay 08, 2025 am 12:16 AM

pythonusesahybridapproach、コンコイリティレーショントビテコードと解釈を組み合わせて、コードコンピレッドフォームと非依存性bytecode.2)

Pythonの「for」と「while」ループの違いを学びますPythonの「for」と「while」ループの違いを学びますMay 08, 2025 am 12:11 AM

keydifferencesは、「for」と「while "loopsare:1)" for "for" loopsareideal forterating overencesonownowiterations、while2) "for" for "for" for "for" for "for" for "for" for for for for "wide" loopsarebetterunuinguntinunuinguntinisisisisisisisisisisisisisisisisisisisisisisisisisisisations.un

重複したPython Concatenateリスト重複したPython ConcatenateリストMay 08, 2025 am 12:09 AM

Pythonでは、さまざまな方法でリストを接続して重複要素を管理できます。1)オペレーターを使用するか、すべての重複要素を保持します。 2)セットに変換してから、リストに戻ってすべての重複要素を削除しますが、元の順序は失われます。 3)ループを使用するか、包含をリストしてセットを組み合わせて重複要素を削除し、元の順序を維持します。

Pythonリスト連結パフォーマンス:速度比較Pythonリスト連結パフォーマンス:速度比較May 08, 2025 am 12:09 AM

fasteStMethodDodforListConcatenationinpythOndontsonistize:1)forsmallLists、operatorisefficient.2)forlargerlists、list.extend()orlistcomlethingisfaster、withextend()beingmorememory-efficient bymodifyigniviselistinistin-place。

Pythonリストに要素をどのように挿入しますか?Pythonリストに要素をどのように挿入しますか?May 08, 2025 am 12:07 AM

to insertelementsIntopeaseThonList、useappend()toaddtotheend、insert()foraspificposition、andextend()formultipleElements.1)useappend()foraddingsingleitemstotheend.2)useintert()toaddataspecificindex、cont'slowerforforgelists.3)

Pythonリストは、フードの下に動的な配列またはリンクリストですか?Pythonリストは、フードの下に動的な配列またはリンクリストですか?May 07, 2025 am 12:16 AM

PythonListsareimplementedasdynamicarrays、notlinkedlists.1)they restorediguourmemoryblocks、それはパフォーマンスに影響を与えることに影響を与えます

Pythonリストから要素をどのように削除しますか?Pythonリストから要素をどのように削除しますか?May 07, 2025 am 12:15 AM

pythonoffersfourmainmethodstoremoveelements fromalist:1)removesthefirstoccurrenceofavalue、2)pop(index(index(index)removes regvess returnsaspecifiedindex、3)delstatementremoveselementselementsbyindexorseLice、および4)clear()

スクリプトを実行しようとするときに「許可を拒否された」エラーを取得した場合、何を確認する必要がありますか?スクリプトを実行しようとするときに「許可を拒否された」エラーを取得した場合、何を確認する必要がありますか?May 07, 2025 am 12:12 AM

toresolvea "許可denided" errors whenrunningascript、sofflowthesesteps:1)checkandadaddadaddadadaddaddadadadaddadaddadaddadaddaddaddaddaddadaddadaddaddaddaddadaddaddaddadadaddadaddadaddadadisionsisingmod xmyscript.shtomakeitexexutable.2)

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン