搜索

首页  >  问答  >  正文

javascript - nodejs抓取网站的翻页判断和言语判断问题.

网址 http://www.everlight.com/news...
两个问题 1 : 怎么取得每页的url
2 是 点开新闻的内容,
比如 http://www.everlight.com/news...
如果是英文的操作系统,显示的是英语新闻,
如果是中文系统,则显示中文新闻,
我想在node里面固定抓取英文新闻,怎么处理.

淡淡烟草味淡淡烟草味2749 天前614

全部回复(3)我来回复

  • 巴扎黑

    巴扎黑2017-05-16 13:44:31

    问题关闭...

    在post的时候,form里面有几个关键性的数据,是放在也没的hidden变量里面,指定了这些变量应该就能解决.

    回复
    0
  • 世界只因有你

    世界只因有你2017-05-16 13:44:31

    右上角有个切换语言的,看一下代码,是调用了这个函数:
    function __doPostBack(eventTarget, eventArgument) {

    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }

    }

    其实就是提交了一下表单,
    而表单是有post的方式发送的原页面
    所以,你点击后会看到页面有闪一下,但网址并没有变化。
    所以,如果你要英文版的,post方式传参数:__EVENTTARGET="ctl00$ctl00$lBtnUSA"过去就可以获得英文版的页面。

    获取页面内的url,去解析dom就行了。

    获取页面中的url的方法:

    var jsdom = require("jsdom");
     
    jsdom.env({
      url: "http://www.everlight.com/newsdetail.aspx?pcseq=4&cseq=7&seq=291",
      scripts: ["http://code.jquery.com/jquery.js"],
      done: function (err, window) {
        var $ = window.$;
        console.log("HN Links");
        $("a").each(function() {
          //console.log(" -", $(this).text());
          var tmp=$(this).text()+"---"+$(this).attr("href");
          console.log(tmp);
        });
      }
    });
    

    回复
    0
  • 某草草

    某草草2017-05-16 13:44:31

    这个还是分析一下request 中的header信息吧,里面有一项是可以利用设置语言的

    回复
    0
  • 取消回复