찾다
백엔드 개발파이썬 튜토리얼想要用 python 做爬虫, 是使用 scrapy框架还是用 requests, bs4 等库?

想要用python(python3)实现一个爬虫,来完成自己的一些需求。
参考网上的资料,发现对自己而言有两种待选的方案:
1. 使用scrapy框架
都说该框架功能强大,实现简单。但是不兼容python3,
2. 使用requests 和 bs4等库来自己实现
相比方案一,可能要自己多写好多代码,以及性能可能不如开源的框架。

由于自己学习的python3(好多人说python3 才是趋势,所以没有学习python2),如果采用方案一,会有scrapy对python3 的支持不够好(虽说现在scrapy官网上说对python3的支持正在进行中,但不相等),希望熟悉的人回答一下 scrapy对python3的支持到底如何?; 如果采用方案二,那么想问 ,如果我想要利用 requests, bs4等库 实现一个简单版的 scrapy, 困难有多大,需要学习那些东西?

回复内容:

真的不要纠结2还是3,对于爬虫来讲,感觉不到区别,这些都不是事儿,除了编码和print。
而且requests和bs4都支持吧(待我确定下)。

那什么是事儿呢?
1 限制ip
用requests代理,买代理,或者网上免费代理
2 伪装成浏览器
requests切换user agent
3 先登录,保存cookies
requests用session先post拿到cookies,再爬
4 URL参数太多,不明白什么意思
webdriver和phantomjs
5 JavaScript和ajax问题
浏览器f12分析请求规律,直接requests请求。或者用webdriver和phantomjs,如果用scrapy的话,用scrapyjs
6 爬的太慢
多线程,别说gil,一般是网络io慢,cpu等io
7 还是慢
scrapy异步(做过几个项目了,挺好用的),pyspider(这个支持Python3)
8 还是慢
分布式(暂时还没涉及),redis,scrapyd
9 验证码
对不起,帮不了你。简单的可以pil,灰度二值化切割识别
10 如果你想自己实现异步请求的话
grequests不错



爪机回复,待补充。
ps 不知不觉自己用Python有一段时间了,写过爬虫,web,最近用Python挣了点钱 前几天刚刚用几个库自己写了一个简单的爬虫,不过因为我是用的Python2.7,所以可能有些不同,先说说我的体验

2个多月前学习了Scrapy框架,之后自己写了几个爬虫,基本是BaseSpider,CrawlSpider,当时感觉写一个爬虫很简单,有一个现成的框架摆在那里,只要自己定义要抓取的类和抓取的函数就行了

之后由于其他事情Python学习断了一个多月,之后看《Python核心编程》,讲到爬虫,就想到为什么不自己写一个,于是开始做。

这时候才体会到写爬虫并不像自己想的那么简单,得自己定义诸如存储数据类,同域名保留函数,数据去重等一系列问题,最后用两种方案写出来,一个是定义一个类,一个是只用函数,不过二者基本上是类似的,当然还有一系列问题没有解决,目前的功能是根据输入的网址和爬取深度来爬取网址,不过基本雏形出来了,以后慢慢解决

个人建议先学习Scrapy,我能感受到的最大的好处就是学习了正则,以至于后来自己写爬虫提取网址直接用正则了,其他的什么库都没有用

学完Scrapy后,试着自己写一个爬虫,因为这时候你对爬虫的基本操作流程已经有所掌握,照猫画虎还不会么,安题主所说,用request和bs4库是肯定不够的,不过不要急着学库,到时候需要了再去查(我个人是喜欢用正则,所以我自己写的爬虫只是用了re,当然不可否认上面两个也很强大,个人喜好而已)写的过程肯定会遇到问题,比如数据存放,去重,抓取,一个一个解决,对提升自己绝对有好处

看着自己写的爬虫跑网页,也是很有成就感的 不要纠结python2 还是python3 的问题。
学习编程不光是学习语法,是学习计算思维,编程思路。python2和python3 差别不是很大。

看你的情况,建议先学习标准库或requests 这个库学习爬虫,先学会抓包,模拟post、get ,自动填表等基本技能,再学习scrapy框架。

建议看看 黄哥主讲的python爬虫联想词视频,学习一下基础知识。

搜索“python爬虫联想词视频” 有播放地址。

加油! 先去试试urllib和urllib2,熟悉一下爬虫的基本思维。然后熟悉了大概之后看看requests,这也是urllib\urllib2封装的,熟悉抓包和分析页面成分,了解POST、GET都是什么原理和实用,试着自己去写几个小站的爬虫,当你不满足于此的时候可以去撸Scrapy了,但是入坑之前推荐楼主先去了解Python的多线程处理,目前我正在死磕中。。 看你使用场景。
如果你的爬虫是玩玩,练练手。或者是对某一站点请求并发量不大的时候,可以用scrapy。
如果你的爬虫对某一站点请求很频繁,量很大时,我倾向于使用requests bs re。

爬虫的业务逻辑很简单。重点是反爬!反爬!反爬!


scrapy优势在于抽象了业务,让你通过配置你需要的数据格式,帮你快速获取结果。这在请求量很小的时候还算方便,但当请求量一大起来,必然会遇到反爬机制各种封你,对于反爬scrapy没提供特别有效的处理机制。

另外往往获取有效数据的操作,用BeautifulSoup+re就搞定了,而为了使用scrapy不得不配置的一堆东西反倒显得繁琐了。
既然所有反爬的处理都需要自己弄,这样看来scrapy的优势其实已经很小了,所以我建议requests bs re做。 requests和bs4库还是相当强大的,简单写个几十行,再配上代理和多进程/多线程,就能抓取相当可观的数据。题主如果想入门这两个库可以在网易云课堂上搜一个有关python爬虫的课程,具体名字忘了,但是个人认为讲的还不错。另外就是善用文档,一切说明都在文档里,百度一搜就有。
성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Scrapy实现微信公众号文章爬取和分析Scrapy实现微信公众号文章爬取和分析Jun 22, 2023 am 09:41 AM

Scrapy实现微信公众号文章爬取和分析微信是近年来备受欢迎的社交媒体应用,在其中运营的公众号也扮演着非常重要的角色。众所周知,微信公众号是一个信息和知识的海洋,因为其中每个公众号都可以发布文章、图文消息等信息。这些信息可以被广泛地应用在很多领域中,比如媒体报道、学术研究等。那么,本篇文章将介绍如何使用Scrapy框架来实现微信公众号文章的爬取和分析。Scr

Scrapy基于Ajax异步加载实现方法Scrapy基于Ajax异步加载实现方法Jun 22, 2023 pm 11:09 PM

Scrapy是一个开源的Python爬虫框架,它可以快速高效地从网站上获取数据。然而,很多网站采用了Ajax异步加载技术,使得Scrapy无法直接获取数据。本文将介绍基于Ajax异步加载的Scrapy实现方法。一、Ajax异步加载原理Ajax异步加载:在传统的页面加载方式中,浏览器发送请求到服务器后,必须等待服务器返回响应并将页面全部加载完毕才能进行下一步操

Scrapy优化技巧:如何减少重复URL的爬取,提高效率Scrapy优化技巧:如何减少重复URL的爬取,提高效率Jun 22, 2023 pm 01:57 PM

Scrapy是一个功能强大的Python爬虫框架,可以用于从互联网上获取大量的数据。但是,在进行Scrapy开发时,经常会遇到重复URL的爬取问题,这会浪费大量的时间和资源,影响效率。本文将介绍一些Scrapy优化技巧,以减少重复URL的爬取,提高Scrapy爬虫的效率。一、使用start_urls和allowed_domains属性在Scrapy爬虫中,可

深度使用Scrapy:如何爬取HTML、XML、JSON数据?深度使用Scrapy:如何爬取HTML、XML、JSON数据?Jun 22, 2023 pm 05:58 PM

Scrapy是一款强大的Python爬虫框架,可以帮助我们快速、灵活地获取互联网上的数据。在实际爬取过程中,我们会经常遇到HTML、XML、JSON等各种数据格式。在这篇文章中,我们将介绍如何使用Scrapy分别爬取这三种数据格式的方法。一、爬取HTML数据创建Scrapy项目首先,我们需要创建一个Scrapy项目。打开命令行,输入以下命令:scrapys

在Scrapy爬虫中使用Selenium和PhantomJS在Scrapy爬虫中使用Selenium和PhantomJSJun 22, 2023 pm 06:03 PM

在Scrapy爬虫中使用Selenium和PhantomJSScrapy是Python下的一个优秀的网络爬虫框架,已经被广泛应用于各个领域中的数据采集和处理。在爬虫的实现中,有时候需要模拟浏览器操作去获取某些网站呈现的内容,这时候就需要用到Selenium和PhantomJS。Selenium是模拟人类对浏览器的操作,让我们可以自动化地进行Web应用程序测试

Scrapy爬虫实践:爬取QQ空间数据进行社交网络分析Scrapy爬虫实践:爬取QQ空间数据进行社交网络分析Jun 22, 2023 pm 02:37 PM

近年来,人们对社交网络分析的需求越来越高。而QQ空间又是中国最大的社交网络之一,其数据的爬取和分析对于社交网络研究来说尤为重要。本文将介绍如何使用Scrapy框架来爬取QQ空间数据,并进行社交网络分析。一、Scrapy介绍Scrapy是一个基于Python的开源Web爬取框架,它可以帮助我们快速高效地通过Spider机制采集网站数据,并对其进行处理和保存。S

如何使用Scrapy爬取豆瓣图书及其评分和评论?如何使用Scrapy爬取豆瓣图书及其评分和评论?Jun 22, 2023 am 10:21 AM

随着互联网的发展,人们越来越依赖于网络来获取信息。而对于图书爱好者而言,豆瓣图书已经成为了一个不可或缺的平台。并且,豆瓣图书也提供了丰富的图书评分和评论,使读者能够更加全面地了解一本图书。但是,手动获取这些信息无异于大海捞针,这时候,我们可以借助Scrapy工具进行数据爬取。Scrapy是一个基于Python的开源网络爬虫框架,它可以帮助我们高效地

Scrapy中如何使用Mozilla Firefox来解决扫码登录的问题?Scrapy中如何使用Mozilla Firefox来解决扫码登录的问题?Jun 22, 2023 pm 09:50 PM

对于爬虫爬取需要登录的网站,验证码或扫码登录是一个很困扰的问题。Scrapy是Python中一个非常好用的爬虫框架,但是在处理验证码或扫码登录时,需要采取一些特殊的措施。作为一个常见的浏览器,MozillaFirefox提供了一种解决方案,可以帮助我们解决这个问题。Scrapy的核心模块是twisted,它只支持异步请求,但是一些网站需要使用cookie和

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

안전한 시험 브라우저

안전한 시험 브라우저

안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.