python爬虫看哪本书-Python教程-PHP中文网

首页

后端开发

Python教程

python爬虫看哪本书

爱喝马黛茶的安东尼

Jun 12, 2019 am 10:52 AM

python爬虫

作为一种便捷地收集网上信息并从中抽取出可用信息的方式，网络爬虫技术变得越来越有用。使用Python这样的简单编程语言，你可以使用少量编程技能就可以爬取复杂的网站。

python爬虫看哪本书

《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南，讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外，本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据，以及有关爬取技术的更多真相，比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫，并对一些真实的网站进行了爬取。

相关推荐：《python视频教程》

python爬虫看哪本书

《用Python写网络爬虫》介绍了如下内容：

通过跟踪链接来爬取网站；

使用lxml从页面中抽取数据；

构建线程爬虫来并行爬取页面；

将下载的内容进行缓存，以降低带宽消耗；

解析依赖于JavaScript的网站；

与表单和会话进行交互；

解决受保护页面的验证码问题；

对AJAX调用进行逆向工程；

使用Scrapy创建高级爬虫。

本书读者对象

本书是为想要构建可靠的数据爬取解决方案的开发人员写作的，本书假定读者具有一定的Python编程经验。当然，具备其他编程语言开发经验的读者也可以阅读本书，并理解书中涉及的概念和原理。

作者简介 · · · · · ·

Richard Lawson来自澳大利亚，毕业于墨尔本大学计算机科学专业。毕业后，他创办了一家专注于网络爬虫的公司，为超过50个国家的业务提供远程工作。他精通于世界语，可以使用汉语和韩语对话，并且积极投身于开源软件。他目前在牛津大学攻读研究生学位，并利用业余时间研发自主无人机。

目录 · · · · · ·

第1章网络爬虫简介 1

1.1　网络爬虫何时有用　1

1.2　网络爬虫是否合法　2

1.3　背景调研　3

1.3.1　检查robots.txt　3

1.3.2　检查网站地图　4

1.3.3　估算网站大小　5

1.3.4　识别网站所用技术　7

1.3.5　寻找网站所有者　7

1.4　编写第一个网络爬虫　8

1.4.1　下载网页　9

1.4.2　网站地图爬虫　12

1.4.3　ID遍历爬虫　13

1.4.4　链接爬虫　15

1.5　本章小结　22

第2章　数据抓取

2.1　分析网页　23

2.2　三种网页抓取方法　26

2.2.1　正则表达式　26

2.2.2　Beautiful Soup　28

2.2.3　Lxml　30

2.2.4　性能对比　32

2.2.5　结论　35

2.2.6　为链接爬虫添加抓取回调　35

2.3　本章小结　38

第3章　下载缓存　39

3.1　为链接爬虫添加缓存支持　39

3.2　磁盘缓存　42

3.2.1　实现　44

3.2.2　缓存测试　46

3.2.3　节省磁盘空间　46

3.2.4　清理过期数据　47

3.2.5　缺点　48

3.3　数据库缓存　49

3.3.1　NoSQL是什么　50

3.3.2　安装MongoDB　50

3.3.3　MongoDB概述　50

3.3.4　MongoDB缓存实现　52

3.3.5　压缩　54

3.3.6　缓存测试　54

3.4　本章小结　55

第4章　并发下载　57

4.1　100万个网页　57

4.2　串行爬虫　60

4.3　多线程爬虫　60

4.3.1　线程和进程如何工作　61

4.3.2　实现　61

4.3.3　多进程爬虫　63

4.4　性能　67

4.5　本章小结　68

第5章　动态内容　69

5.1　动态网页示例　69

5.2　对动态网页进行逆向工程　72

5.3　渲染动态网页　77

5.3.1　PyQt还是PySide　78

5.3.2　执行JavaScript　78

5.3.3　使用WebKit与网站交互　80

5.3.4　Selenium　85

5.4　本章小结　88

第6章　表单交互　89

6.1　登录表单　90

6.2　支持内容更新的登录脚本扩展　97

6.3　使用Mechanize模块实现自动化表单处理　100

6.4　本章小结　102

第7章　验证码处理　103

7.1　注册账号　103

7.2　光学字符识别　106

7.3　处理复杂验证码　111

7.3.1　使用验证码处理服务　112

7.3.2　9kw入门　112

7.3.3　与注册功能集成　119

7.4　本章小结　120

第8章　Scrapy　121

8.1　安装　121

8.2　启动项目　122

8.2.1　定义模型　123

8.2.2　创建爬虫　124

8.2.3　使用shell命令抓取　128

8.2.4　检查结果　129

8.2.5　中断与恢复爬虫　132

8.3　使用Portia编写可视化爬虫　133

8.3.1　安装　133

8.3.2　标注　136

8.3.3　优化爬虫　138

8.3.4　检查结果　140

8.4　使用Scrapely实现自动化抓取　141

8.5　本章小结　142

第9章　总结　143

9.1　Google搜索引擎　143

9.2　Facebook　148

9.2.1　网站　148

9.2.2　API　150

9.3　Gap　151

9.4　宝马　153

9.5　本章小结　157

以上是python爬虫看哪本书的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python vs. C：了解关键差异Apr 21, 2025 am 12:18 AM

Python和C 各有优势，选择应基于项目需求。1)Python适合快速开发和数据处理，因其简洁语法和动态类型。2)C 适用于高性能和系统编程，因其静态类型和手动内存管理。

Python vs.C：您的项目选择哪种语言？Apr 21, 2025 am 12:17 AM

选择Python还是C 取决于项目需求：1)如果需要快速开发、数据处理和原型设计，选择Python；2)如果需要高性能、低延迟和接近硬件的控制，选择C 。

达到python目标：每天2小时的力量Apr 20, 2025 am 12:21 AM

通过每天投入2小时的Python学习，可以有效提升编程技能。1.学习新知识：阅读文档或观看教程。2.实践：编写代码和完成练习。3.复习：巩固所学内容。4.项目实践：应用所学于实际项目中。这样的结构化学习计划能帮助你系统掌握Python并实现职业目标。

最大化2小时：有效的Python学习策略Apr 20, 2025 am 12:20 AM

在两小时内高效学习Python的方法包括：1.回顾基础知识，确保熟悉Python的安装和基本语法；2.理解Python的核心概念，如变量、列表、函数等；3.通过使用示例掌握基本和高级用法；4.学习常见错误与调试技巧；5.应用性能优化与最佳实践，如使用列表推导式和遵循PEP8风格指南。

在Python和C之间进行选择：适合您的语言Apr 20, 2025 am 12:20 AM

Python适合初学者和数据科学，C 适用于系统编程和游戏开发。1.Python简洁易用，适用于数据科学和Web开发。2.C 提供高性能和控制力，适用于游戏开发和系统编程。选择应基于项目需求和个人兴趣。

Python与C：编程语言的比较分析Apr 20, 2025 am 12:14 AM

Python更适合数据科学和快速开发，C 更适合高性能和系统编程。1.Python语法简洁，易于学习，适用于数据处理和科学计算。2.C 语法复杂，但性能优越，常用于游戏开发和系统编程。

每天2小时：Python学习的潜力Apr 20, 2025 am 12:14 AM

每天投入两小时学习Python是可行的。1.学习新知识：用一小时学习新概念，如列表和字典。2.实践和练习：用一小时进行编程练习，如编写小程序。通过合理规划和坚持不懈，你可以在短时间内掌握Python的核心概念。

Python与C：学习曲线和易用性Apr 19, 2025 am 12:20 AM

Python更易学且易用，C 则更强大但复杂。1.Python语法简洁，适合初学者，动态类型和自动内存管理使其易用，但可能导致运行时错误。2.C 提供低级控制和高级特性，适合高性能应用，但学习门槛高，需手动管理内存和类型安全。

See all articles

热AI工具

热工具

python爬虫看哪本书

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

适用于 Eclipse 的 SAP NetWeaver 服务器适配器

螳螂BT

Atom编辑器mac版下载

Dreamweaver Mac版

SublimeText3 Linux新版

热门话题