ホームページ >バックエンド開発 >Python チュートリアル >Python クローラーの写真、Excel の操作
最近、Tanzhou Education のオンラインライブコースを視聴しましたが、先生の講義の実践性に非常に感銘を受けました。自分のメモとして学習してください。プログラムを学習するときは、まずそれをコピーしてから作成することは誰もが知っています。ここでは先生の説明を徹底的に真似して勉強しています。
1. Python は Douban の女の子の写真をキャプチャします。
ツール: python3.6.0;オンラインでアップグレードできます: pip install update buautifulsoup4
1.pip list、ローカルインストールを表示できます。
1. Douban の女の子の写真をクロールし、そのアドレス、url = '' を知る。
2. Web ページのソース コード、F12、ネットワークを確認し、左側にキャプチャされた Web ページ情報を見つけて、ユーザー エージェントを見つけます。主な目的は、ブラウザのログインを模倣し、アンチクローラーを防ぐことです。
要素要素を見つけます。必要なのは、img タグ、その中の画像情報、および src リンクのダウンロード アドレスです。
先生に従ってすべてのコードを書きます
1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问,反爬虫 9 def crawl(url):10 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11 req=urllib.request.Request(url,headers=headers)#创建对象12 page=urllib.request.urlopen(req,timeout=20)#设置超时13 contents=page.read()#获取源码14 #print (contents.decode())15 soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16 my_girl=soup.find_all('img')#找到所有img标签17 # 5.获取图片18 for girl in my_girl:#遍历19 link=girl.get('src')#获取src20 print(link)21 global x#全局变量22 # 6.下载 urlretrieve23 urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的,路径)24 x+=125 print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列,爬取多页图片。28 #page+=129 url='{}'.format(page)#30 #url = 'http://www.dbmeinv.com/?pager_offset=%d' % page31 crawl(url)32 33 print('图片下载完毕')
最終的な実行結果、画像は画像フォルダーに保存されます。
2. Dianping を取得し、Excel にインポートします。趙ベンのマニフェスト教師のソースコード。
以上がPython クローラーの写真、Excel の操作の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。