recherche

Maison  >  Questions et réponses  >  le corps du texte

php - 该选择哪个语言开发爬虫?

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发!
网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。
PHP的也有个snoopy类库,C++的就不清楚了。
不知道,C++中有没有这方面的爬虫类库推荐呢?

伊谢尔伦伊谢尔伦2785 Il y a quelques jours1460

répondre à tous(23)je répondrai

  • 迷茫

    迷茫2017-04-10 16:12:39

    建议用node, phamtomjs, node的jQuery, 还有jsdom, node下面很多解析html的包,非常方便

    répondre
    0
  • 高洛峰

    高洛峰2017-04-10 16:12:39

    我觉得不是说选择哪个语言,主要是看开发者对哪个语言最熟悉。

    répondre
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-10 16:12:39

    如果是我的话,我会用 Node.js

    Node.js 有一个 Cheerio 库,用来解析 HTML 效率十分不错。它的 API 风格是类似 jQuery 的。

    répondre
    0
  • 怪我咯

    怪我咯2017-04-10 16:12:39

    啥都不说,肯定是python

    répondre
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-10 16:12:39

    需要开发个采集腾讯、新浪微博的评论数据。

    目的明确了,解决的思路也不难。你的爬虫的主要功能就是

    1. 能向服务器进行通信,返回你需要页面的内容
    2. 解析页面源码,挖掘出你需要的信息
      python是一个不错的推荐,解决两个问题都有完善的库。
      比如urllib2解决http请求,lxml 解决页面源码的解析(解析成html树)。
      关键步骤就是在解析后生成的html树中,找到所需信息,需要自己完成:
      分析信息在html树中所在的位置,并告诉你的程序去对应位置(利用xpath来定位)抓信息
      写过一个python抓取douban日志名称,URL,评论数,发布时间的爬虫。
      能解决基本的挖掘需要后,再来考虑如何能更快及应对大型数据,目前了解的方法有iterparse方法,多线程等。

    p.s
    为什么是lxml?参考lxml performance

    répondre
    0
  • 大家讲道理

    大家讲道理2017-04-10 16:12:39

    爬虫基本上就是网页抓去+内容分析了吧。

    我也建议选择类库简单丰富的语言,比如Python和Ruby应该都不错。

    Ruby可以选择的有Crul,mechanize,nokogiri,hpricot等。

    répondre
    0
  • 阿神

    阿神2017-04-10 16:12:39

    php里有phpQuery,语法和jquery差不多,非常的好用!

    répondre
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-10 16:12:39

    Perl
    竟然没人推荐..

    répondre
    0
  • 大家讲道理

    大家讲道理2017-04-10 16:12:39

    golang 是个不错的选择

    répondre
    0
  • 大家讲道理

    大家讲道理2017-04-10 16:12:39

    用python吧,你会发现有很多优点。。。

    répondre
    0
  • Annulerrépondre