Python - クローラーを使用して Web ページから画像をバッチでクロールするにはどうすればよいですか?

Question

画像のように、ネットワーク経由で画像を閲覧して読み込み、1枚ずつ右クリックで保存するのは面倒なので、ここで画像を一括取得するクローラーを記述する方法はありますか？

仅有的幸福 · Answer

クロールの方法を知っていれば、この要件は実際には非常に簡単で、ほんの数ステップで完了します。

ホームページまたは画像のあるページ、正規表現または他のフレームワークを通じて画像を取得しますurl
requests库或者urllibライブラリから上記画像URLのアドレスにアクセス
バイナリ形式でローカルハードディスクに書き込みます

参照コード:

リーリー

詳細については、公式ドキュメントを参照してください: リクエストドキュメントrequests

女神的闺蜜爱上我 · Answer

はい、
クローラーの 5 つの部分:
スケジューラー
URL 重複排除
ダウンローダー
Web ページの解析
データストレージ
画像をダウンロードするためのアイデアは次のとおりです:
画像が配置されている Web ページのコンテンツを取得し、img タグを解析します画像アドレスを取得してから、便利な画像 URL を取得し、各画像をダウンロードします。繰り返しのダウンロードを避けるために、ダウンロードした画像アドレスをブルームフィルターに保存します。画像をダウンロードするたびに、その URL を通じてダウンロードされたかどうかを確認します。がローカルにダウンロードされている場合は、画像のパスをデータベースに保存し、画像ファイルをフォルダーに保存することも、画像をデータベースに直接保存することもできます。
Pythonはrequest+Beautifulsoup4を使用します
Javaはjsoupを使用します

女神的闺蜜爱上我 · Answer

複数の Web サイトまたは 1 つの Web サイトを非常に深くクロールする必要がある場合、上記の方法は直接再帰的または詳細なトラバーサルになります。

Python - クローラーを使用して Web ページから画像をバッチでクロールするにはどうすればよいですか?

全員に返信(3)返信します