Pythonでの簡易クローラ機能の実装例-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Pythonでの簡易クローラ機能の実装例

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 05, 2016 pm 01:27 PM

python

毎日インターネットを閲覧していると、素敵な写真を目にすることが多く、その写真を保存してダウンロードしたり、デスクトップの壁紙やデザイン素材として使用したくなります。

最も一般的な方法は、マウスを右クリックして「名前を付けて保存」を選択することです。ただし、一部の画像には、マウスを右クリックしたときに名前を付けて保存するオプションがありません。スクリーンショットツールを使用してキャプチャすることもできますが、これにより画像の鮮明さが低下します。よし〜！実際、右クリックしてページのソースコードを表示するのは非常に便利です。

Python を使用してこのような単純なクローラー関数を実装し、必要なコードをローカルでクロールできます。 Python を使用してこのような機能を実装する方法を見てみましょう。

1、ページ全体のデータを取得します

まず、ダウンロードする画像のページ全体の情報を取得します。
getjpg.py

リーリー

Urllib モジュールは、ローカルファイルを読み取るのと同じように、Web ページデータを読み取るためのインターフェイスを提供します。まず、getHtml() 関数を定義します。

urllib.urlopen() メソッドは、URL アドレスを開くために使用されます。

read() メソッドは、URL 上のデータを読み取り、URL を getHtml() 関数に渡し、ページ全体をダウンロードするために使用されます。プログラムを実行すると、Web ページ全体が印刷されます。

次に、ページ上で必要なデータをフィルターします
Python は非常に強力な正規表現を提供します。まず、Python の正規表現について少し知る必要があります。

Baidu Tieba でいくつかの美しい壁紙を見つけ、前のセクションに移動してツールを表示するとします。画像のアドレスが見つかりました。 src=”http://imgsrc.baidu.com/forum...jpg” pic_ext=”jpeg”

コードを次のように変更します:

リーリー

getImg() 関数も作成しました。これは、取得したページ全体で必要な画像リンクをフィルターするために使用されます。 re モジュールには主に正規表現が含まれています:

re.compile() は正規表現を正規表現オブジェクトにコンパイルできます。

re.findall()メソッドは、html内のimgre(正規表現)を含むデータを読み込みます。

スクリプトを実行すると、ページ全体に含まれる画像の URL アドレスが取得されます。

3、ページのフィルタリングされたデータをローカルに保存します

フィルタリングされた画像アドレスを for ループを通じてトラバースし、ローカルに保存します。コードは次のとおりです。

リーリー

ここでの核心は、urllib.urlretrieve() メソッドを使用してリモートデータをローカルに直接ダウンロードすることです。

for ループを通じて取得した画像接続をたどります。画像のファイル名をより標準化するために、名前を変更します。x 変数に 1 を追加します。保存場所のデフォルトは、プログラムの保存ディレクトリです。

プログラムが完了すると、ローカルディレクトリにダウンロードされたファイルが表示されます。

読んでいただきありがとうございます。皆さんのお役に立てれば幸いです。このサイトのご支援に感謝します。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

どのデータ型をPythonアレイに保存できますか？Apr 27, 2025 am 12:11 AM

Pythonlistscanstoreanydatatype,arraymodulearraysstoreonetype,andNumPyarraysarefornumericalcomputations.1)Listsareversatilebutlessmemory-efficient.2)Arraymodulearraysarememory-efficientforhomogeneousdata.3)NumPyarraysareoptimizedforperformanceinscient

Pythonアレイに間違ったデータ型の値を保存しようとするとどうなりますか？Apr 27, 2025 am 12:10 AM

heouttemptemptostoreavure ofthewrongdatatypeinapythonarray、yure counteractypeerror.thisduetothearraymodule'sstricttypeeencultionyを使用します

Python Standard Libraryの一部はどれですか：リストまたは配列はどれですか？Apr 27, 2025 am 12:03 AM

PythonListSarePartOfThestAndardarenot.liestareBuilting-in、versatile、forStoringCollectionsのpythonlistarepart。

スクリプトが間違ったPythonバージョンで実行されるかどうかを確認する必要がありますか？Apr 27, 2025 am 12:01 AM

theScriptisrunningwithwrongthonversionduetorectRectDefaultEntertersettings.tofixthis：1）CheckthedededefaultHaulthonsionsingpython - versionorpython3-- version.2）usevirtualenvironmentsbycreatingonewiththon3.9-mvenvmyenv、andverixe

Pythonアレイで実行できる一般的な操作は何ですか？Apr 26, 2025 am 12:22 AM

PythonArraysSupportVariousoperations：1）SlicingExtractsSubsets、2）Appending/ExtendingAdddesements、3）inSertingSelementSatspecificpositions、4）remvingingDeletesements、5）sorting/verversingsorder、and6）listenionsionsionsionsionscreatenewlistsebasedexistin

一般的に使用されているnumpy配列はどのようなアプリケーションにありますか？Apr 26, 2025 am 12:13 AM

numpyarraysAressertialentionsionceivationsefirication-efficientnumericalcomputations andDatamanipulation.theyarecrucialindatascience、mashineelearning、物理学、エンジニアリング、および促進可能性への適用性、scaledatiencyを効率的に、forexample、infinancialanalyyy

Pythonのリスト上の配列を使用するのはいつですか？Apr 26, 2025 am 12:12 AM

UseanArray.ArrayOverAlistinPythonは、Performance-criticalCode.1）homogeneousdata：araysavememorywithpedelements.2）Performance-criticalcode：Araysofterbetterbetterfornumerumerumericaleperations.3）interf

すべてのリスト操作は配列でサポートされていますか？なぜまたはなぜですか？Apr 26, 2025 am 12:05 AM

いいえ、notallistoperationSaresuptedbyarrays、andviceversa.1）arraysdonotsupportdynamicoperationslikeappendorintorintorinsertizizing、whosimpactsporformance.2）リスト

See all articles