php curl 抓網頁數據問題，聽說內地神人很多，求神人解

Question

因工作需求，需要抓取别人网站的数据，使用php + curl 但是遇到问题无解 听说内地的神人很多，请各位神人帮帮小弟，来自台湾的小弟已经爬文爬文三天了。 网址：http://www.cbssports.com/mlb/scoreboard 然后，选...

天蓬老师 · Answer

额，不知道你碰到了什么问题，不过我看了下就是简单的抓取，完全没问题啊。另外，解析HTML请不要在用正则了，推荐你用一下 phpQuery 这个库，PHP抓取利器。以你给的网址为例：

include "phpQuery.php";
phpQuery::newDocumentFile("http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_TB@TOR");
echo pq("#current-pitcher")->html();

怪我咯 · Answer

我遇到的问题其实说穿了就是

...我用firbug 或 chrome debug时，所追踪的html 跟我「检视原始档」和「另存新档」时所看到的资料不同：

目前有赛事 http://www.cbssports.com/mlb/gametracker/live/MLB_20140527_DET@OAK

神人求解

伊谢尔伦 · Answer

你想要抓去的html内容，是由javascript生成的，抓包工具都不会解析执行javascript的。
解决方法就是用phantomjs，可以跑一个受脚本控制的，无界面的webkit。

php curl 抓網頁數據問題，聽說內地神人很多，求神人解

reply all(3)I'll reply