ホームページ >バックエンド開発 >Python チュートリアル >Python クローラーの写真、Excel の操作

Python クローラーの写真、Excel の操作

PHP中文网
PHP中文网オリジナル
2017-06-20 14:01:292012ブラウズ

最近、Tanzhou Education のオンラインライブコースを視聴しましたが、先生の講義の実践性に非常に感銘を受けました。自分のメモとして学習してください。プログラムを学習するときは、まずそれをコピーしてから作成することは誰もが知っています。ここでは先生の説明を徹底的に真似して勉強しています。

1. Python は Douban の女の子の写真をキャプチャします。

ツール: python3.6.0;オンラインでアップグレードできます: pip install update buautifulsoup4

1.pip list、ローカルインストールを表示できます。

1. Douban の女の子の写真をクロールし、そのアドレス、url = '' を知る。

2. Web ページのソース コード、F12、ネットワークを確認し、左側にキャプチャされた Web ページ情報を見つけて、ユーザー エージェントを見つけます。主な目的は、ブラウザのログインを模倣し、アンチクローラーを防ぐことです。

要素要素を見つけます。必要なのは、img タグ、その中の画像情報、および src リンクのダウンロード アドレスです。

先生に従ってすべてのコードを書きます

 1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问,反爬虫 9 def crawl(url):10     headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11     req=urllib.request.Request(url,headers=headers)#创建对象12     page=urllib.request.urlopen(req,timeout=20)#设置超时13     contents=page.read()#获取源码14     #print (contents.decode())15     soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16     my_girl=soup.find_all('img')#找到所有img标签17     # 5.获取图片18     for girl in my_girl:#遍历19         link=girl.get('src')#获取src20         print(link)21         global x#全局变量22         # 6.下载 urlretrieve23         urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的,路径)24         x+=125         print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列,爬取多页图片。28     #page+=129     url='{}'.format(page)#30     #url = 'http://www.dbmeinv.com/?pager_offset=%d' % page31     crawl(url)32 33 print('图片下载完毕')

最終的な実行結果、画像は画像フォルダーに保存されます。

2. Dianping を取得し、Excel にインポートします。趙ベンのマニフェスト教師のソースコード。

りー

以上がPython クローラーの写真、Excel の操作の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。