浅谈爬虫及绕过网站反爬取机制-前端问答-PHP中文网

首页

web前端

前端问答

浅谈爬虫及绕过网站反爬取机制

coldplay.xixi

Aug 25, 2020 pm 04:50 PM

爬虫

　浅谈爬虫及绕过网站反爬取机制

【相关学习推荐：网站制作视频教程】

爬虫是什么呢，简单而片面的说，爬虫就是由计算机自动与服务器交互获取数据的工具。爬虫的最基本就是get一个网页的源代码数据，如果更深入一些，就会出现和网页进行POST交互，获取服务器接收POST请求后返回的数据。一句话，爬虫用来自动获取源数据，至于更多的数据处理等等是后续的工作，这篇文章主要想谈谈爬虫获取数据的这一部分。爬虫请注意网站的Robot.txt文件，不要让爬虫违法，也不要让爬虫对网站造成伤害。

　　反爬及反反爬概念的不恰当举例

　　基于很多原因(如服务器资源，保护数据等)，很多网站是限制了爬虫效果的。

　　考虑一下，由人来充当爬虫的角色，我们怎么获取网页源代码?最常用的当然是右键源代码。

　　网站屏蔽了右键，怎么办?

　　拿出我们做爬虫中最有用的东西 F12(欢迎讨论)

　　同时按下F12就可以打开了(滑稽)

　　源代码出来了!!

　　在把人当作爬虫的情况下，屏蔽右键就是反爬取策略，F12就是反反爬取的方式。

　　讲讲正式的反爬取策略

　　事实上，在写爬虫的过程中一定出现过没有返回数据的情况，这种时候也许是服务器限制了UA头(user-agent)，这就是一种很基本的反爬取，只要发送请求的时候加上UA头就可以了…是不是很简单?

　　其实一股脑把需要不需要的Request Headers都加上也是一个简单粗暴的办法……

　　有没有发现网站的验证码也是一个反爬取策略呢?为了让网站的用户能是真人，验证码真是做了很大的贡献。随验证码而来的，验证码识别出现了。

　　说到这，不知道是先出现了验证码识别还是图片识别呢?

　　简单的验证码现在识别起来是非常简单的，网上有太多教程，包括稍微进阶一下的去噪，二值，分割，重组等概念。可是现在网站人机识别已经越发的恐怖了起来，比如这种：

　　简单讲述一下去噪二值的概念

　　将一个验证码

变成

就是二值，也就是将图片本身变成只有两个色调，例子很简单，通过python PIL库里的

　　Image.convert("1")

　　就能实现，但如果图片变得更为复杂，还是要多思考一下，比如

如果直接用简单方式的话就会变成

思考一些这种验证码应该怎么识别?这种时候去噪就派上了用处，根据验证码本身的特征，可以计算验证码的底色和字体之外的RGB值等，将这些值变成一个颜色，将字体留出。示例代码如下，换色即可

　　for x in range(0,image.size[0]):
　　for y in range(0,image.size[1]):
　　# print arr2[x][y]
　　if arr[x][y].tolist()==底色:
　　arr[x][y]=0
　　elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):
　　arr[x][y]=0
　　elif arr[x][y].tolist()==[0,0,0]:
　　arr[x][y]=0
　　else:
　　arr[x][y]=255

　　arr是由numpy得到的,根据图片RGB值得出的矩阵,读者可以自己尝试完善代码，亲自实验一下。

　　细致的处理之后图片可以变成

识别率还是很高的。

　　在验证码的发展中，还算清晰的数字字母，简单的加减乘除，网上有轮子可以用，有些难的数字字母汉字，也可以自己造轮子(比如上面)，但更多的东西，已经足够写一个人工智能了……(有一种工作就是识别验证码…)

　　再加一个小提示：有的网站PC端有验证码，而手机端没有…

　　下一个话题!

　　反爬取策略中比较常见的还有一种封IP的策略，通常是短时间内过多的访问就会被封禁，这个很简单，限制访问频率或添加IP代理池就OK了,当然，分布式也可以…

　　IP代理池->左转Google右转baidu，有很多代理网站，虽然免费中能用的不多但毕竟可以。

　　还有一种也可以算作反爬虫策略的就是异步数据，随着对爬虫的逐渐深入(明明是网站的更新换代!)，异步加载是一定会遇见的问题，解决方式依然是F12。以不愿透露姓名的网易云音乐网站为例，右键打开源代码后，尝试搜索一下评论

　　数据呢?!这就是JS和Ajax兴起之后异步加载的特点。但是打开F12，切换到NetWork选项卡，刷新一下页面，仔细寻找，没有秘密。

　　哦，对了如果你在听歌的话，点进去还能下载呢…

　　仅为对网站结构的科普，请自觉抵制盗版，保护版权，保护原创者利益。

　　如果说这个网站限制的你死死的，怎么办?我们还有最后一计，一个强无敌的组合：selenium + PhantomJs

　　这一对组合非常强力，可以完美模拟浏览器行为，具体的用法自行百度，并不推荐这种办法，很笨重，此处仅作为科普。

以上是浅谈爬虫及绕过网站反爬取机制的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

PHP 爬虫实战：爬取 Twitter 上的数据Jun 13, 2023 pm 01:17 PM

在数字化时代下，社交媒体已经成为人们生活中不可或缺的一部分。Twitter作为其中的代表，每天有数亿用户在上面分享各种信息。对于一些研究、分析、推销等需求，获取Twitter上的相关数据是非常必要的。本文将介绍如何使用PHP编写一个简单的Twitter爬虫，爬取一些关键字相关的数据并存储在数据库中。一、TwitterAPITwitter提供

爬虫实战：用 PHP 爬取京东商品信息Jun 13, 2023 am 11:11 AM

在当今的电商时代，京东作为中国最大的综合电商之一，每日上架的商品数量甚至可以达到数万种。对于广大的消费者来说，京东提供了广泛的商品选择和优势的价格优惠。但是，有些时候，我们需要批量获取京东商品信息，快速筛选、比较、分析等等。这时候，我们就需要用到爬虫技术了。在本篇文章中，我们将会介绍利用PHP语言编写爬虫，帮助我们快速爬取京东商品信息的实现。准备工作首先，我

爬虫技巧：如何在 PHP 中处理 CookieJun 13, 2023 pm 02:54 PM

在爬虫开发中，处理Cookie常常是必不可少的一环。Cookie作为HTTP中的一种状态管理机制，通常被用来记录用户的登录信息和行为，是爬虫处理用户验证和保持登录状态的关键。在PHP爬虫开发中，处理Cookie需要掌握一些技巧和留意一些坑点。下面我们详细介绍如何在PHP中处理Cookie。一、如何获取Cookie在使用PHP编写

爬虫实战：使用PHP爬取携程旅游信息Jun 13, 2023 am 10:26 AM

随着旅游业的不断发展，旅游信息变得非常丰富。为了方便大家获取更全面、准确的旅游信息，我们可以使用爬虫来抓取旅游网站上的数据，并进行分析和处理。本文将介绍如何使用PHP爬取携程旅游信息。爬虫基础知识爬虫是一种自动化程序，可以模拟用户访问网站并获取网站上的数据。爬虫一般分为以下几步：发起请求：爬虫程序会向目标网站发起HTTP请求，获取目标网站的HTML代码。解析

Python中的爬虫实战：微信公众号爬虫Jun 10, 2023 am 09:01 AM

Python是一种优雅的编程语言，拥有强大的数据处理和网络爬虫功能。在这个数字化时代，互联网上充满了大量的数据，爬虫已成为获取数据的重要手段，因此，Python爬虫在数据分析和挖掘方面有着广泛的应用。在本文中，我们将介绍如何使用Python爬虫来获取微信公众号文章信息。微信公众号是一种流行的社交媒体平台，用于在线发布文章，是许多公司和自媒体推广和营销的重要工

PHP 爬虫实战：爬取百度搜索结果Jun 13, 2023 pm 12:39 PM

随着互联网的发展，我们可以通过各种搜索引擎轻易地获得各种信息。而对于开发者来说，如何从搜索引擎中获取各种数据，是一项非常重要的技能。今天，我们来学习如何使用PHP编写一个爬虫，来爬取百度搜索结果。一、爬虫工作原理在开始之前，我们先来了解一下爬虫工作的基本原理。首先，爬虫会发送请求给服务器，请求网站的内容。服务器接收到请求之后，会返回网页的内容。爬虫收到内

使用 PHP 和 Selenium WebDriver 实现爬虫Jun 13, 2023 am 10:06 AM

随着互联网的蓬勃发展，我们可以轻松地获取海量的数据。而爬虫则是其中一种常见的数据获取方式，特别是在需要大量数据的数据分析和研究领域中，爬虫的应用越来越广泛。本文将介绍如何使用PHP和SeleniumWebDriver实现爬虫。一、什么是SeleniumWebDriver？SeleniumWebDriver是一种自动化测试工具，主要用于模拟人

PHP爬虫实战：如何抓取网页表格数据Jun 13, 2023 am 09:35 AM

随着互联网和大数据时代的到来，越来越多的数据可以被收集和利用。而在众多从网页上获取数据的方法中，爬虫技术可以说是最为强大和高效的一种。在实际的应用场景中，我们经常需要从网页中抓取特定的数据，尤其是网页中的表格数据。因此，本文将介绍如何使用PHP爬虫技术来获取并解析网页中的表格数据。安装和配置PHP爬虫库在开始编写爬虫代码之前，我们需要先安装和配置一个PHP爬

See all articles