python爬虫之Scrapy 使用代理配置-Python教程-PHP中文网

首页

后端开发

Python教程

python爬虫之Scrapy 使用代理配置

高洛峰

Oct 17, 2016 pm 01:56 PM

在爬取网站内容的时候，最常遇到的问题是：网站对IP有限制，会有防抓取功能，最好的办法就是IP轮换抓取（加代理）

下面来说一下Scrapy如何配置代理，进行抓取

1.在Scrapy工程下新建“middlewares.py”

# Importing base64 library because we&#39;ll need it ONLY in case if the proxy we are going to use requires authentication
import base64 
# Start your middleware class
class ProxyMiddleware(object):
    # overwrite process request
    def process_request(self, request, spider):
        # Set the location of the proxy
        request.meta[&#39;proxy&#39;] = "http://YOUR_PROXY_IP:PORT"
  
        # Use the following lines if your proxy requires authentication
        proxy_user_pass = "USERNAME:PASSWORD"
        # setup basic authentication for the proxy
        encoded_user_pass = base64.encodestring(proxy_user_pass)
        request.headers[&#39;Proxy-Authorization&#39;] = &#39;Basic &#39; + encoded_user_pass

2.在项目配置文件里(./pythontab/settings.py)添加

DOWNLOADER_MIDDLEWARES = {
    &#39;scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware&#39;: 110,
    &#39;pythontab.middlewares.ProxyMiddleware&#39;: 100,
}

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Python中有可能理解吗？如果是，为什么以及如果不是为什么？Apr 28, 2025 pm 04:34 PM

文章讨论了由于语法歧义而导致的Python中元组理解的不可能。建议使用tuple（）与发电机表达式使用tuple（）有效地创建元组。（159个字符）

Python中的模块和包装是什么？Apr 28, 2025 pm 04:33 PM

本文解释了Python中的模块和包装，它们的差异和用法。模块是单个文件，而软件包是带有__init__.py文件的目录，在层次上组织相关模块。

Python中的Docstring是什么？Apr 28, 2025 pm 04:30 PM

文章讨论了Python中的Docstrings，其用法和收益。主要问题：Docstrings对于代码文档和可访问性的重要性。

什么是lambda功能？Apr 28, 2025 pm 04:28 PM

文章讨论了Lambda功能，与常规功能的差异以及它们在编程方案中的效用。并非所有语言都支持他们。

什么是休息时间，继续并通过python？Apr 28, 2025 pm 04:26 PM

文章讨论了休息，继续并传递Python，并解释了它们在控制循环执行和程序流中的作用。

Python的通行证是什么？Apr 28, 2025 pm 04:25 PM

本文讨论了Python中的“ Pass”语句，该语句是函数和类等代码结构中用作占位符的空操作，允许在没有语法错误的情况下实现将来实现。

我们可以在Python中传递作为参数的函数吗？Apr 28, 2025 pm 04:23 PM

文章讨论了将功能作为Python中的参数，突出了模块化和用例（例如分类和装饰器）等好处。

Python中的 /和//有什么区别？Apr 28, 2025 pm 04:21 PM

文章在Python中讨论 /和//运营商： / for for True Division，//用于地板部门。主要问题是了解它们的差异和用例。Character数量：158

See all articles

热AI工具

热工具

MinGW - 适用于 Windows 的极简 GNU

这个项目正在迁移到osdn.net/projects/mingw的过程中，你可以继续在那里关注我们。MinGW：GNU编译器集合（GCC）的本地Windows移植版本，可自由分发的导入库和用于构建本地Windows应用程序的头文件；包括对MSVC运行时的扩展，以支持C99功能。MinGW的所有软件都可以在64位Windows平台上运行。

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序，非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具，帮助Web开发人员更好地理解保护Web应用程序的过程，并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞，难度各不相同。请注意，该软件中

显示更多

python爬虫之Scrapy 使用代理配置

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

热门文章

热工具

EditPlus 中文破解版

SublimeText3汉化版

MinGW - 适用于 Windows 的极简 GNU

mPDF

DVWA

热门话题