


Scrapy ist ein leistungsstarkes Python-Framework, das uns dabei hilft, Daten auf Websites einfach zu crawlen. Allerdings treten Probleme auf, wenn die Website, die wir crawlen möchten, über einen Bestätigungscode verfügt. Der Zweck von CAPTCHAs besteht darin, automatisierte Crawler daran zu hindern, eine Website anzugreifen. Daher sind sie in der Regel sehr komplex und schwer zu knacken. In diesem Beitrag erfahren Sie, wie Sie mit dem Scrapy-Framework CAPTCHAs identifizieren und verarbeiten, damit unsere Crawler diese Abwehrmaßnahmen umgehen können.
Was ist ein Verifizierungscode?
Ein CAPTCHA ist ein Test, mit dem nachgewiesen werden soll, dass der Benutzer ein echter Mensch und keine Maschine ist. Normalerweise handelt es sich um eine verschleierte Textzeichenfolge oder ein unleserliches Bild, das den Benutzer dazu zwingt, manuell einzugeben oder auszuwählen, was angezeigt wird. CAPTCHAs dienen dazu, automatisierte Bots und Skripte abzufangen, um Websites vor böswilligen Angriffen und Missbrauch zu schützen.
Normalerweise gibt es drei Arten von CAPTCHAs:
- Text-CAPTCHA: Benutzer müssen eine Textzeichenfolge kopieren und einfügen, um zu beweisen, dass sie ein menschlicher Benutzer und kein Bot sind.
- Nummernverifizierungscode: Der Benutzer muss die angezeigte Nummer in das Eingabefeld eingeben.
- Bildverifizierungscode: Der Benutzer wird aufgefordert, Zeichen oder Zahlen aus einem angezeigten Bild in das Eingabefeld einzugeben. Dies ist normalerweise der am schwersten zu knackende Typ, da die Zeichen oder Zahlen im Bild verzerrt oder falsch platziert sein können oder andere visuelle Elemente aufweisen Lärm. .
Warum müssen Sie Bestätigungscodes verarbeiten?
Crawler sind oft in großem Umfang automatisiert, sodass sie leicht als Roboter identifiziert und von der Datenbeschaffung auf Websites ausgeschlossen werden können. Um dies zu verhindern, wurden CAPTCHAs eingeführt. Sobald ep in die Phase des Verifizierungscodes eintritt, wartet der Scrapy-Crawler nicht mehr auf Benutzereingaben und kann daher nicht mit dem Crawlen von Daten fortfahren, was zu einer Verringerung der Effizienz und Integrität des Crawlers führt.
Wir brauchen also eine Möglichkeit, mit dem Captcha umzugehen, damit unser Crawler es automatisch weitergeben und seine Aufgabe fortsetzen kann. Normalerweise verwenden wir Tools oder APIs von Drittanbietern, um die Erkennung von Verifizierungscodes abzuschließen. Diese Tools und APIs verwenden maschinelles Lernen und Bildverarbeitungsalgorithmen, um Bilder und Zeichen zu erkennen und die Ergebnisse an unser Programm zurückzugeben.
Wie gehe ich mit Verifizierungscodes in Scrapy um?
Öffnen Sie die Datei „settings.py“ von Scrapy. Wir müssen das Feld DOWNLOADER_MIDDLEWARES ändern und den folgenden Proxy hinzufügen:
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.contrib.downloadermiddleware.retry .RetryMiddleware ': 350,'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': 400,
'scrapy.contrib.downloadermiddleware.cookies.CookiesMiddleware': 700,'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 750,
'scrapy .contrib.downloadermiddleware.useragent.UserAgentMiddleware': 400,'scrapy.contrib.downloadermiddleware.defaultheaders.DefaultHeadersMiddleware': 550,
'scrapy.contrib.downloadermiddleware.ajaxcrawl.AjaxCrawlMiddleware': 900,'scrapy.contrib.download ermiddleware. httpcom Druck .HttpCompressionMiddleware': 800,
'scrapy.contrib.downloadermiddleware.chunked.ChunkedTransferMiddleware': 830,'scrapy.contrib.downloadermiddleware.stats.DownloaderStats': 850,
'tutorial.middlewares.CaptchaMiddleware': 999}
In In In diesem Beispiel verwenden wir CaptchaMiddleware, um den Bestätigungscode zu verarbeiten. CaptchMiddleware ist eine benutzerdefinierte Middleware-Klasse, die die Download-Anfrage verarbeitet und die API aufruft, um bei Bedarf den Bestätigungscode zu identifizieren, dann den Bestätigungscode in die Anfrage einzufügen und zurückzukehren, um mit der Ausführung fortzufahren.
Codebeispiel:
Klasse CaptchaMiddleware (Objekt):
def __init__(self): self.client = CaptchaClient() self.max_attempts = 5 def process_request(self, request, spider): # 如果没有设置dont_filter则默认开启 if not request.meta.get('dont_filter', False): request.meta['dont_filter'] = True if 'captcha' in request.meta: # 带有验证码信息 captcha = request.meta['captcha'] request.meta.pop('captcha') else: # 没有验证码则获取 captcha = self.get_captcha(request.url, logger=spider.logger) if captcha: # 如果有验证码则添加到请求头 request = request.replace( headers={ 'Captcha-Code': captcha, 'Captcha-Type': 'math', } ) spider.logger.debug(f'has captcha: {captcha}') return request def process_response(self, request, response, spider): # 如果没有验证码或者验证码失败则不重试 need_retry = 'Captcha-Code' in request.headers.keys() if not need_retry: return response # 如果已经尝试过,则不再重试 retry_times = request.meta.get('retry_times', 0) if retry_times >= self.max_attempts: return response # 验证码校验失败则重试 result = self.client.check(request.url, request.headers['Captcha-Code']) if not result: spider.logger.warning(f'Captcha check fail: {request.url}') return request.replace( meta={ 'captcha': self.get_captcha(request.url, logger=spider.logger), 'retry_times': retry_times + 1, }, dont_filter=True, ) # 验证码校验成功则继续执行 spider.logger.debug(f'Captcha check success: {request.url}') return response def get_captcha(self, url, logger=None): captcha = self.client.solve(url) if captcha: if logger: logger.debug(f'get captcha [0:4]: {captcha[0:4]}') return captcha return None
In dieser Middleware haben wir das CaptchaClient-Objekt als Captcha-Lösungs-Middleware verwendet. Wir können mehrere Captcha-Lösungs-Middleware verwenden.
Hinweise
Bitte achten Sie bei der Implementierung dieser Middleware auf folgende Punkte:
- Die Identifizierung und Verarbeitung von Verifizierungscodes erfordert die Verwendung von Tools oder APIs von Drittanbietern, und wir müssen sicherstellen, dass wir über eine legale Lizenz verfügen und befolgen Sie die Anforderungen des Herstellers. Verwenden Sie sie.
- Nach dem Hinzufügen einer solchen Middleware wird der Anforderungsprozess komplexer und Entwickler müssen sorgfältig testen und debuggen, um sicherzustellen, dass das Programm ordnungsgemäß funktioniert.
Fazit
Durch die Verwendung des Scrapy-Frameworks und der Middleware zur Erkennung und Verarbeitung von Bestätigungscodes können wir die Verteidigungsstrategie für Bestätigungscodes effektiv umgehen und ein effektives Crawlen der Zielwebsite erreichen. Diese Methode spart in der Regel Zeit und Aufwand als die manuelle Eingabe von Bestätigungscodes und ist effizienter und genauer. Es ist jedoch wichtig zu beachten, dass Sie die Lizenzvereinbarungen und Anforderungen von Drittanbieter-Tools und APIs lesen und einhalten, bevor Sie diese verwenden.
Das obige ist der detaillierte Inhalt vonDie Kraft von Scrapy: Wie erkennt und verarbeitet man Verifizierungscodes?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

手机收不到验证码是网络问题、手机设置问题、手机运营商问题和个人设置问题导致的。详情介绍:1、网络问题,手机所处的网络环境不稳定或者信号弱,就有可能导致验证码无法及时送达;2、手机设置问题,不小心将手机的短信或语音功能关闭,或者将验证码的发送号码加入到黑名单中,从而导致验证码无法正常收到;3、手机运营商问题,手机运营商可能会出现故障或者维护,导致验证码无法及时送达等等。

PHP图片处理案例:如何实现图片的验证码功能随着互联网的快速发展,验证码成为了保护网站安全的重要手段之一。验证码是一种通过图像识别技术来确定用户是否为真实用户的验证方式。本文将介绍如何使用PHP来实现图片的验证码功能,并附带代码示例。简介验证码是一张包含随机字符的图片,用户需要输入图片中的字符才能通过验证。实现验证码的主要过程包括生成随机字符、绘制字符到图片

“最烦登网站时各种奇奇怪怪(甚至变态)的验证码了。”现在,有一个好消息和一个坏消息。好消息就是:AI可以帮你代劳这件事了。不信你瞧,以下是三张识别难度依次递增的真实案例:而这些是一个名为“Pix2Struct”的模型给出的答案:全部准确无误、一字不差有没有?有网友感叹:确定,准确性比我强。所以可不可以做成浏览器插件??不错,有人表示:别看这几个案例相比还算简单,但凡微调一下,我都不敢想象其效果有多厉害了。所以,坏消息就是——验证码马上就要拦不住机器人了!(危险危险危险……)如何做到?Pix2St

随着互联网的发展和智能手机的普及,验证码登录功能被越来越多的网站和应用程序采用。验证码登录是一种通过输入正确的验证码来验证用户身份的登录方式,以提高安全性和防止恶意攻击。在PHP开发中,实现简单的验证码登录功能并不复杂,可以通过以下步骤来完成。创建数据库表首先,我们需要在数据库中创建一个用于存储验证码信息的表。表结构可以包含以下字段:id:自增主键phon

今天我在给大家分享一个OCR应用——ddddocr自动识别验证码。前面4个d是“带带弟弟”的首拼音。[/笑哭]。项目地址:https://github.com/sml2h3/ddddocr。使用的时候用pip命令直接安装即可pipinstallddddocr。OCR的核心技术包含两方面,一是目标检测模型检测图片中的文字,二是文字识别模型,将图片中的文字转成文本文字。第一类验证码最简单,它们没有复杂的背景图片,所以目标检测模型可以省略,直接将图片送入文字识别模型即可。识别代码如下:impor

如何使用PHP创建验证码图片?验证码(CAPTCHA)是一种常用的验证用户是否为人而不是机器的方法。在网站上,我们经常会看到验证码图片,要求用户输入图片上显示的随机字符或数字,以完成登录、注册、评论等操作。本文将介绍如何使用PHP创建验证码图片,并提供具体的代码示例。一、PHPGD库要创建验证码图片,我们需要使用PHP的GD库。GD库是一个用于处理图像的扩

如何使用JavaScript实现验证码功能?随着网络的发展,验证码已经成为了网站和应用程序中不可或缺的安全机制之一。验证码(VerificationCode)是一种用于判断用户是否为人类而不是机器的技术。通过验证码,网站和应用程序可以防止垃圾信息提交、恶意攻击、机器人爬虫等问题。本文将介绍如何使用JavaScript实现验证码功能,并提供具体的代码

react实现手机验证码的方法:1、下载antd button和input组件;2、通过“<Input className={`apiMobileInput`} disabled value={this.props.phoneNumber} />”获取客户的手机号;3、通过“await this.props.sendCode({...})”实现获取验证码即可。


Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

MantisBT
Mantis ist ein einfach zu implementierendes webbasiertes Tool zur Fehlerverfolgung, das die Fehlerverfolgung von Produkten unterstützen soll. Es erfordert PHP, MySQL und einen Webserver. Schauen Sie sich unsere Demo- und Hosting-Services an.

SecLists
SecLists ist der ultimative Begleiter für Sicherheitstester. Dabei handelt es sich um eine Sammlung verschiedener Arten von Listen, die häufig bei Sicherheitsbewertungen verwendet werden, an einem Ort. SecLists trägt dazu bei, Sicherheitstests effizienter und produktiver zu gestalten, indem es bequem alle Listen bereitstellt, die ein Sicherheitstester benötigen könnte. Zu den Listentypen gehören Benutzernamen, Passwörter, URLs, Fuzzing-Payloads, Muster für vertrauliche Daten, Web-Shells und mehr. Der Tester kann dieses Repository einfach auf einen neuen Testcomputer übertragen und hat dann Zugriff auf alle Arten von Listen, die er benötigt.

PHPStorm Mac-Version
Das neueste (2018.2.1) professionelle, integrierte PHP-Entwicklungstool

Dreamweaver CS6
Visuelle Webentwicklungstools

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung