ホームページ >バックエンド開発 >Python チュートリアル >Pythonでの簡易クローラ機能の実装例
毎日インターネットを閲覧していると、素敵な写真を目にすることが多く、その写真を保存してダウンロードしたり、デスクトップの壁紙やデザイン素材として使用したくなります。
最も一般的な方法は、マウスを右クリックして「名前を付けて保存」を選択することです。ただし、一部の画像には、マウスを右クリックしたときに名前を付けて保存するオプションがありません。スクリーンショット ツールを使用してキャプチャすることもできますが、これにより画像の鮮明さが低下します。よし〜!実際、右クリックしてページのソース コードを表示するのは非常に便利です。
Python を使用してこのような単純なクローラー関数を実装し、必要なコードをローカルでクロールできます。 Python を使用してこのような機能を実装する方法を見てみましょう。
1、ページ全体のデータを取得します
まず、ダウンロードする画像のページ全体の情報を取得します。
getjpg.py
Urllib モジュールは、ローカル ファイルを読み取るのと同じように、Web ページ データを読み取るためのインターフェイスを提供します。まず、getHtml() 関数を定義します。
urllib.urlopen() メソッドは、URL アドレスを開くために使用されます。
read() メソッドは、URL 上のデータを読み取り、URL を getHtml() 関数に渡し、ページ全体をダウンロードするために使用されます。プログラムを実行すると、Web ページ全体が印刷されます。
次に、ページ上で必要なデータをフィルターします
Python は非常に強力な正規表現を提供します。まず、Python の正規表現について少し知る必要があります。
コードを次のように変更します:
3、ページのフィルタリングされたデータをローカルに保存します
リーリー
for ループを通じて取得した画像接続をたどります。画像のファイル名をより標準化するために、名前を変更します。x 変数に 1 を追加します。保存場所のデフォルトは、プログラムの保存ディレクトリです。
プログラムが完了すると、ローカルディレクトリにダウンロードされたファイルが表示されます。
読んでいただきありがとうございます。皆さんのお役に立てれば幸いです。このサイトのご支援に感謝します。