ホームページ  >  に質問  >  本文

Python - クローラーを使用して Web ページから画像をバッチでクロールするにはどうすればよいですか?

図のように、画像を1枚ずつ右クリックして保存してネットワーク経由で閲覧・読み込みするのは非常に面倒なのですが、ここで画像を一括キャプチャするクローラを記述する方法はあるでしょうか?

给我你的怀抱给我你的怀抱2646日前1127

全員に返信(3)返信します

  • 仅有的幸福

    仅有的幸福2017-06-28 09:27:48

    クロールの方法を知っていれば、この要件は実際には非常に簡単で、ほんの数ステップで完了します。

    1. ホームページまたは画像のあるページ、正規表現または他のフレームワークを通じて画像を取得しますurl

    2. requests库或者urllibライブラリから上記画像URLのアドレスにアクセス

    3. バイナリ形式でローカルハードディスクに書き込みます

    参照コード:

    リーリー

    詳細については、公式ドキュメントを参照してください: リクエストドキュメントrequests

    返事
    0
  • 女神的闺蜜爱上我

    女神的闺蜜爱上我2017-06-28 09:27:48

    はい、
    クローラーの 5 つの部分:
    スケジューラー
    URL 重複排除
    ダウンローダー
    Web ページの解析
    データ ストレージ
    画像をダウンロードするためのアイデアは次のとおりです:
    画像が配置されている Web ページのコンテンツを取得し、img タグを解析します画像アドレスを取得してから、便利な画像 URL を取得し、各画像をダウンロードします。繰り返しのダウンロードを避けるために、ダウンロードした画像アドレスをブルーム フィルターに保存します。画像をダウンロードするたびに、その URL を通じてダウンロードされたかどうかを確認します。がローカルにダウンロードされている場合は、画像のパスをデータベースに保存し、画像ファイルをフォルダーに保存することも、画像をデータベースに直接保存することもできます。
    Pythonはrequest+Beautifulsoup4を使用します
    Javaはjsoupを使用します

    返事
    0
  • 女神的闺蜜爱上我

    女神的闺蜜爱上我2017-06-28 09:27:48

    複数の Web サイトまたは 1 つの Web サイトを非常に深くクロールする必要がある場合、上記の方法は直接再帰的または詳細なトラバーサルになります。

    返事
    0
  • キャンセル返事