搜尋

首頁  >  問答  >  主體

javascript - nodejs抓取網站的翻頁判斷與言語判斷問題.

網址http://www.everlight.com/news...
兩個問題1 : 怎麼取得每頁的url
2 是點開新聞的內容,
例如http:/ /www.everlight.com/news...
如果是英文的作業系統,顯示的是英文新聞,
如果是中文系統,則顯示中文新聞,
我想在node裡面固定抓取英文新聞,怎麼處理.

淡淡烟草味淡淡烟草味2794 天前652

全部回覆(3)我來回復

  • 巴扎黑

    巴扎黑2017-05-16 13:44:31

    問題關閉...

    在post的時候,form裡面有幾個關鍵性的資料,是放在也沒的hidden變數裡面,指定了這些變數應該就能解決.

    回覆
    0
  • 世界只因有你

    世界只因有你2017-05-16 13:44:31

    右上角有個切換語言的,看一下程式碼,是呼叫了這個函數:
    function __doPostBack(eventTarget, eventArgument) {

    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }

    }

    其實就是提交了一下表單,
    而表單是有post的方式發送的原頁面
    所以,你點擊後會看到頁面有閃一下,但網址並沒有變化。
    所以,如果你要英文版的,post方式傳參數:__EVENTTARGET="ctl00$ctl00$lBtnUSA"過去就可以獲得英文版的頁面。

    取得頁內的url,去解析dom就行了。

    取得頁面中的url的方法:

    var jsdom = require("jsdom");
     
    jsdom.env({
      url: "http://www.everlight.com/newsdetail.aspx?pcseq=4&cseq=7&seq=291",
      scripts: ["http://code.jquery.com/jquery.js"],
      done: function (err, window) {
        var $ = window.$;
        console.log("HN Links");
        $("a").each(function() {
          //console.log(" -", $(this).text());
          var tmp=$(this).text()+"---"+$(this).attr("href");
          console.log(tmp);
        });
      }
    });
    

    回覆
    0
  • 某草草

    某草草2017-05-16 13:44:31

    這個還是分析一下request 中的header資訊吧,裡面有一個是可以利用設定語言的

    回覆
    0
  • 取消回覆