ホームページ >バックエンド開発 >Python チュートリアル >Python クローラー: キーワードを通じて Baidu 画像をクロールします。
使用したツール: Python2.7
卑劣なフレームワーク
sublime text3
1つ。 Python のビルド (Windows 版)
1. python2.7 をインストールします --- 次に、cmd に python と入力します。インターフェースが以下のようであれば、インストールは成功です
2. Scrapy フレームワークを統合します ---- と入力しますコマンドライン: pip install Scrapy
成功したインストールインターフェイスは次のとおりです:
失敗する状況はたくさんありますが、ここに例があります:
解決策:
他のエラーも検索できます百度で。
2つ。プログラミングを始めます。
Python コードは次のとおりです:
コードのコメント: 2 つのモジュール urllib,re が導入されています。 2 つの関数を定義します。1 つ目は、対象の Web ページ内の対象画像を取得し、Web ページを横断し、取得した画像を 0 からソートすることです。
注: モジュールに関する知識ポイント:
クロールされた画像レンダリング:
デフォルトの画像保存パスは、作成された .py ファイルと同じディレクトリ ファイルにあります。
2. クローラー対策で Baidu 画像をクロールします。百度写真など。
たとえば、キーワード検索「絵文字パッケージ」 https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0% FC&fr= ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
写真はローリング方式でロードされ、優先度の最も高い 30 枚の写真は最初に這った。
コードは次のとおりです:
コードのコメント: 4 つのモジュールをインポートし、os モジュールは保存パスの指定に使用されます。最初の 2 つの関数は上記と同じです。 3 番目の関数は、if ステートメントと tryException を使用します。
クロールのプロセスは次のとおりです:
クロール結果:
注: Python コードを記述するときは位置合わせに注意してください。エラーが発生しやすいため、タブとスペースを混在させることはできません。
その他の Python クローラー: キーワードによる Baidu 画像のクロールについては、PHP 中国語 Web サイトの関連記事に注目してください。