search

Home  >  Q&A  >  body text

javascript - 关于网站抓数据的问题【菜鸟】

试图从网站上抓数据,如果是静态的网页,整个数据库以文本的形式在网页上似乎不是难事。但是,有些网站的数据是动态生成的。例如:需要用户输入关键字,选择时间段进行搜索后生成数据表格,或者需要手动点击多级链接后出现数据表格。对此类网页抓数据的方法毫无头绪。求一个相对简单的解决方案,只要能解决问题就行,不局限于一定要使用某一软件或语言。

要抓的网页例子:

http://meps.ahrq.gov/mepsweb/data_stats/quick_tables_search.jsp?component=1&subcomponent=0
次站是需要进行关键字搜索,通过站内搜索引擎获得数据表

http://apps.who.int/gho/data/node.main
次站需要点击多级链接后生成数据表

万分感谢愿意提供思路的前辈!


意识到了问题的难度,想试图简化这个问题。有什么可以批量抓取静态网页的包或软件可以推荐吗?简易也没关系,最好是可以拿来就用,多多益善。谢谢!

巴扎黑巴扎黑2902 days ago406

reply all(5)I'll reply

  • 迷茫

    迷茫2017-04-10 14:28:34

    动态生成的肯定能抓取到他ajax提交的地址吧,能抓取到地址就模拟数据提交一下,返回的都是你要的数据吧.哪就ok了吧.

    reply
    0
  • PHP中文网

    PHP中文网2017-04-10 14:28:34

    你可以看看 火车头 工具

    reply
    0
  • 迷茫

    迷茫2017-04-10 14:28:34

    curl是你想要的

    看这篇文章

    reply
    0
  • PHP中文网

    PHP中文网2017-04-10 14:28:34

    htmlunit,带js解析引擎,可以执行js,不复杂的js可以得到执行结果http://htmlunit.sourceforge.net/

    reply
    0
  • ringa_lee

    ringa_lee2017-04-10 14:28:34

    python写过抓图片的

    reply
    0
  • Cancelreply