首頁  >  問答  >  主體

php - 该选择哪个语言开发爬虫?

需要开发个采集腾讯、新浪微博的评论数据。
如果直接使用官方提供的API,会有很多数据获取不到。所以可能得自己写了。
我主要是想使用C++来开发的,其次才是PHP。在没办法的情况下,才会考虑使用python进行开发!
网上大概了解了下,很多采集程序都是使用python来开发的。因为python的网络库很多,很丰富,开发起来方便快捷。
PHP的也有个snoopy类库,C++的就不清楚了。
不知道,C++中有没有这方面的爬虫类库推荐呢?

伊谢尔伦伊谢尔伦2724 天前1369

全部回覆(23)我來回復

  • ringa_lee

    ringa_lee2017-04-10 16:12:39

    参考

    C/C++ 网络爬虫

    回覆
    0
  • 高洛峰

    高洛峰2017-04-10 16:12:39

    推荐Python。有requests等类库。
    也有scrapy这样的框架。

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-10 16:12:39

    python 唯一的好处就是 request 库真的很方便

    我以前都是用 php 做爬虫的,现在都改用 python 了


    其实用 JavaScript 也是很好的,node 或者 phantomJS

    因为很多时候你不仅要把 HTML 爬下来,还要解析;而 python 的 DOM 库简直糟糕透顶;比如 BeautifulSoup,很多操作就非常不方便;相比之下,js 进行 DOM 操作就方便多了

    回覆
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-10 16:12:39

    弱弱的推荐一下 php 的 goutte

    回覆
    0
  • ringa_lee

    ringa_lee2017-04-10 16:12:39

    毫不犹豫golang

    回覆
    0
  • 大家讲道理

    大家讲道理2017-04-10 16:12:39

    用python 没有原因

    回覆
    0
  • ringa_lee

    ringa_lee2017-04-10 16:12:39

    表示采用java,jsoup,http://www.husters.cn/ 抓爬的

    回覆
    0
  • 巴扎黑

    巴扎黑2017-04-10 16:12:39

    1. 有较好地html获取和解析支持。
    2. 有较好地并行控制。
    3. 方便处理异步任务。
    4. 容易开发DSL。(假如你需要用户自定义抓取路径的话。)

    以前写过好几个版本的爬虫,供参考。http://niejason.sinaapp.com/?p=66

    回覆
    0
  • PHPz

    PHPz2017-04-10 16:12:39

    snoopy类库很久以前用过,不过感觉不是很好用。功能一般。
    其实爬虫最网页请求那一块比较容易实现,也没有什么好说的。其实最主要是对请求回来的数据处理,分析。
    所以我觉得用node.js会是很好的选择。

    看看那位童鞋推荐下node.js有什么好的库。

    回覆
    0
  • PHPz

    PHPz2017-04-10 16:12:39

    node.js的jquery也不错。。。

    回覆
    0
  • 取消回覆