搜尋

首頁  >  問答  >  主體

php - 该选择哪个语言开发爬虫?

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发!
网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。
PHP的也有个snoopy类库,C++的就不清楚了。
不知道,C++中有没有这方面的爬虫类库推荐呢?

伊谢尔伦伊谢尔伦2784 天前1451

全部回覆(23)我來回復

  • PHP中文网

    PHP中文网2017-04-10 16:12:39

    每个语言都可以,基本的爬虫只要涉及到一些HTTP请求和文档解析就能做出来。
    Python有Scrapy等框架,上手比较快,可以研究一下。

    回覆
    0
  • 高洛峰

    高洛峰2017-04-10 16:12:39

    爬虫无非就是获取网页内容,解析内容,正则出想要的数据,其实对于网页内容获取,任何语言都能获取,注意代理服务器防封IP,并行抓取等技术,个人感觉php 获取网页内容还是不错的,至于解析网页内容,基本上都是DOM的操作,那最佳选择还是nodejs,里边的cheerio很好的解决树形结构数据。

    回覆
    0
  • 高洛峰

    高洛峰2017-04-10 16:12:39

    用javascript也可以写爬虫 在云端编写和执行 源码地址:
    https://github.com/ShenJianSh...

    回覆
    0
  • 取消回覆