php - 该选择哪个语言开发爬虫？

Question

需要开发个采集腾讯、新浪微博的评论数据。 如果直接使用官方提供的API，会有很多数据获取不到。所以可能得自己写了。 我主要是想使用C++来开发的，其次才是PHP。在没办法的情况下，才会考虑使用python进行开发！...

ringa_lee · Answer

参考

C/C++ 网络爬虫

高洛峰 · Answer

推荐Python。有requests等类库。
也有scrapy这样的框架。

PHP中文网 · Answer

python 唯一的好处就是 request 库真的很方便

我以前都是用 php 做爬虫的，现在都改用 python 了

其实用 JavaScript 也是很好的，node 或者 phantomJS

因为很多时候你不仅要把 HTML 爬下来，还要解析；而 python 的 DOM 库简直糟糕透顶；比如 BeautifulSoup，很多操作就非常不方便；相比之下，js 进行 DOM 操作就方便多了

伊谢尔伦 · Answer

弱弱的推荐一下 php 的 goutte

ringa_lee · Answer

毫不犹豫golang

大家讲道理 · Answer

用python 没有原因

ringa_lee · Answer

表示采用java，jsoup，http://www.husters.cn/ 抓爬的

巴扎黑 · Answer

以前写过好几个版本的爬虫，供参考。http://niejason.sinaapp.com/?p=66

PHPz · Answer

snoopy类库很久以前用过，不过感觉不是很好用。功能一般。
其实爬虫最网页请求那一块比较容易实现，也没有什么好说的。其实最主要是对请求回来的数据处理，分析。
所以我觉得用node.js会是很好的选择。

看看那位童鞋推荐下node.js有什么好的库。

PHPz · Answer

node.js的jquery也不错。。。