首次接触爬虫,这个程序可以让初学者明白爬虫是啥,爬虫的基本逻辑。(参照网易云课堂heibanke老师的程序编写的。hebanke老师的课程讲得很清楚,感兴趣的选手可以去看看)
被爬虫的网址是http://www.heibanke.com/lesson/crawler_ex00/需要完成的任务是在网址后面输入显示的数字转入下一个网址,再次读取显示的数字,转入下一个网址,以此循环
爬虫要求
在爬虫的时候需要需要用到两个库,一个urllib,一个BeautifulSoup,urllib为python自带的库,beautifulsoup需要自己安装
pip install beautifulsoup4
安装成功后导入
import urllibfrom bs4 import BeautifulSoup
urllib提供了一系列用于操作URL的功能打开要爬取得网站:
urllib.urlopen(url)
beautifulsoup主要用于解析HTML,将 HTML转化成数型结构,每个节点都是Python对象。所有对象可以归纳为4种:1.Tag2.NavigableString3.BeautifulSoup4.Comment如果一个HTML为
<html> <[head])> <title> The Dormouse's story </title>
print soup.title>>><title>The Dormouse's story</title>
print soup.title.string>>>The Dormouse's story
程序逻辑:读出页面上的数字,将数字加在url后面,继续读取新页面的数字,直到进入最后一个没有数字的页面,break程序如下:
import urllibfrom bs4 import BeautifulSoupimport re#这个库导入是为了使用正则表达式读取读取找到的内容中的数字url='http://www.heibanke.com/lesson/crawler_ex00/'number=['']#用于储存读到的数字while True: content = urllib.urlopen(url+number[0])#number为字符串,number[0]为数字 bs_obj = BeautifulSoup(content,"html.parser")#html.parser表示解析网站,不返回任何值 number = bs_obj.h3.string#网页显示出的“你需要在网址后输入数字44513”在html的h3 tag中,number在这里读出了h3里面的内容 number= re.findall(r'\d+',number)#读出了number里面的数字 if not number:#必须判断页面中还有是否还有number,没有说明已经到了最后一个页面,这时应该跳出循环,打印 bs_obj.h3.string break else: print number[0]print bs_obj.h3.string

一致的HTML编码风格很重要,因为它提高了代码的可读性、可维护性和效率。1)使用小写标签和属性,2)保持一致的缩进,3)选择并坚持使用单引号或双引号,4)避免在项目中混合使用不同风格,5)利用自动化工具如Prettier或ESLint来确保风格的一致性。

在Bootstrap4中实现多项目轮播的解决方案在Bootstrap4中实现多项目轮播并不是一件简单的事情。虽然Bootstrap...

如何实现鼠标滚动事件穿透效果?在我们浏览网页时,经常会遇到一些特别的交互设计。比如在deepseek官网上,�...

无法直接通过CSS修改HTML视频的默认播放控件样式。1.使用JavaScript创建自定义控件。2.通过CSS美化这些控件。3.考虑兼容性、用户体验和性能,使用库如Video.js或Plyr可简化过程。

在手机上使用原生select的潜在问题在开发移动端应用时,我们常常会遇到选择框的需求。通常情况下,开发者倾...

在手机上使用原生select的弊端是什么?在移动设备上开发应用时,选择合适的UI组件是非常重要的。许多开发者�...

使用Three.js和Octree优化房间内第三人称漫游的碰撞处理在Three.js中使用Octree实现房间内的第三人称漫游并添加碰�...

使用原生select在手机上的问题在移动设备上开发应用时,我们经常会遇到需要用户进行选择的场景。虽然原生sel...


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 Linux新版
SublimeText3 Linux最新版

WebStorm Mac版
好用的JavaScript开发工具

Dreamweaver Mac版
视觉化网页开发工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

禅工作室 13.0.1
功能强大的PHP集成开发环境