図のように、画像を1枚ずつ右クリックして保存してネットワーク経由で閲覧・読み込みするのは非常に面倒なのですが、ここで画像を一括キャプチャするクローラを記述する方法はあるでしょうか?
仅有的幸福2017-06-28 09:27:48
クロールの方法を知っていれば、この要件は実際には非常に簡単で、ほんの数ステップで完了します。
ホームページまたは画像のあるページ、正規表現または他のフレームワークを通じて画像を取得しますurl
requests
库或者urllib
ライブラリから上記画像URLのアドレスにアクセス
バイナリ形式でローカルハードディスクに書き込みます
参照コード:
リーリー詳細については、公式ドキュメントを参照してください: リクエストドキュメントrequests
女神的闺蜜爱上我2017-06-28 09:27:48
はい、
クローラーの 5 つの部分:
スケジューラー
URL 重複排除
ダウンローダー
Web ページの解析
データ ストレージ
画像をダウンロードするためのアイデアは次のとおりです:
画像が配置されている Web ページのコンテンツを取得し、img タグを解析します画像アドレスを取得してから、便利な画像 URL を取得し、各画像をダウンロードします。繰り返しのダウンロードを避けるために、ダウンロードした画像アドレスをブルーム フィルターに保存します。画像をダウンロードするたびに、その URL を通じてダウンロードされたかどうかを確認します。がローカルにダウンロードされている場合は、画像のパスをデータベースに保存し、画像ファイルをフォルダーに保存することも、画像をデータベースに直接保存することもできます。
Pythonはrequest+Beautifulsoup4を使用します
Javaはjsoupを使用します
女神的闺蜜爱上我2017-06-28 09:27:48
複数の Web サイトまたは 1 つの Web サイトを非常に深くクロールする必要がある場合、上記の方法は直接再帰的または詳細なトラバーサルになります。