使用Node.js爬蟲如何實現網頁請求-js教程-PHP中文網

首頁

web前端

js教程

使用Node.js爬蟲如何實現網頁請求

亚连

Jun 12, 2018 pm 02:54 PM

node.js

本篇文章主要介紹了淺談Node.js爬蟲之網頁請求模組，現在分享給大家，也給大家做個參考。

本文介紹了Node.js爬蟲之網頁請求模組，分享給大家，具體如下：

#註：如您下載最新的nodegrass版本，由於部分方法已經更新，本文的例子已經不再適應，詳細請查看開源位址中的範例。

一、為什麼我要寫這樣一個模組？

源自於筆者想使用Node.js寫一個爬蟲，雖然Node.js官方API提供的請求遠端資源的方法已經非常簡便，具體參考

#http:// nodejs.org/api/http.html 其中對於Http的請求提供了，http.get(options, callback)和http.request(options, callback)兩個方法，

看方法便知，get方法用於get方式的請求，而request方法提供更多的參數，例如其它請求方式，請求主機的連接埠等等。對於Https的請求於Http類似。一個最簡單的例子：

var https = require(&#39;https&#39;);
https.get(&#39;https://encrypted.google.com/&#39;, function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on(&#39;data&#39;, function(d) {
  process.stdout.write(d);
 });

}).on(&#39;error&#39;, function(e) {
 console.error(e);
});

對於上述程式碼，我們無非就是想請求遠端主機，得到回應訊息，例如回應狀態，回應頭，回應主體內容。其中get方法的第二個參數是一個回調函數，我們異步的獲取響應信息，然後，在該回調函數中，res對象又監聽data，on方法中第二個參數又是一個回調，而你得到d （你要求到的回應訊息）後，很可能在對它進行操作的時候再次引入回調，一層層下去，最後就暈了。。。對於非同步方式的編程，對於一些習慣同步方式寫代碼的同學是非常糾結的，當然國內外已經對此提供了一些非常優秀的同步類庫，例如老趙的Wind.js......好像有點扯遠了。其實，我們呼叫get最終要得到的無非就是回應訊息，而不關心res.on這樣的監聽過程，因為太懶惰。不想每次都res.on('data',func)，於是誕生了今天我要介紹的nodegrass。

二、nodegrass請求資源，像Jquery的$.get(url,func)

一個最簡單的例子：

var nodegrass = require(&#39;nodegrass&#39;);
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},&#39;gbk&#39;).on(&#39;error&#39;, function(e) {
  console.log("Got error: " + e.message);
});

咋一看，和官方原來的get沒啥區別，確實差不多=。 =！只不過少了一層res.on('data',func)的事件監聽回呼而已。不管你信不信，反正我看上去感覺舒服多了，第二個參數同樣是一個回調函數，其中的參數data是響應主體內容，status是響應狀態，headers是響應頭。得到回應內容，我們就可以對得到的資源提取任何我們感興趣的資訊啦。當然這個例子中，只是簡單的列印的控制台而已。第三個參數是字元編碼，目前Node.js不支援gbk，這裡nodegrass內部引用了iconv-lite進行了處理，所以，如果你要求的網頁編碼是gbk的，例如百度。只要加上這個參數就行了。

那麼對於https的請求呢？如果是官方api，你得引入https模組，但是請求的get方法等和http類似，於是nodegrass順便把他們整合在一塊了。看範例：

var nodegrass = require(&#39;nodegrass&#39;);
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},&#39;utf8&#39;).on(&#39;error&#39;, function(e) {
  console.log("Got error: " + e.message);
});

nodegrass會根據url自動辨識是http還是https，當然你的url必須得有，不能只寫www.baidu.com/而需要http://www.baidu.com/ 。

對於post的請求，nodegrass提供了post方法，看範例：

var ng=require(&#39;nodegrass&#39;);
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,&#39;utf8&#39;);

以上是新浪微博Auth2.0請求accessToken的一部分，其中使用nodegrass的post請求access_token的api。

post方法比較get方法多提供了headers請求頭參數，options--post的數據，它們都是物件字面量的型別：

var headers = {
    &#39;Content-Type&#39;: &#39;application/x-www-form-urlencoded&#39;,
    &#39;Content-Length&#39;:data.length
  };

var options = {
       client_id : &#39;id&#39;,
     client_secret : &#39;cs&#39;,
     grant_type : &#39;authorization_code&#39;,
     redirect_uri : &#39;your callback url&#39;,
     code: acode
  };

三、利用nodegrass做代理伺服器？ ……**

看例子：

var ng = require(&#39;nodegrass&#39;),
   http=require(&#39;http&#39;),
   url=require(&#39;url&#39;);

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === &#39;/&#39;){
      ng.get(&#39;http://www.cnblogs.com/&#39;,function(data){
        res.writeHeader(200,{&#39;Content-Type&#39;:&#39;text/html;charset=utf-8&#39;});
        res.write(data+"\n");
        res.end();
        },&#39;utf8&#39;);
      }
   }).listen(8088);
   console.log(&#39;server listening 8088...&#39;);

就這麼簡單，當然代理伺服器還有複雜的多，這個不算是，但至少你訪問本地8088端口，看到的是不是部落格花園的頁面呢？

nodegrass的開源位址：https://github.com/scottkiss/nodegrass

上面是我整理給大家的，希望今後會對大家有幫助。

JavaScript遞歸遍歷與非遞歸遍歷

vue中如何使用element-ui的Upload上傳元件

vue中如何實作methods方法之間呼叫

以上是使用Node.js爬蟲如何實現網頁請求的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python vs. JavaScript：社區，圖書館和資源Apr 15, 2025 am 12:16 AM

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好，適合初學者，但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大，JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富，但Python適合從官方文檔開始，JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

從C/C到JavaScript：所有工作方式Apr 14, 2025 am 12:05 AM

從C/C 轉向JavaScript需要適應動態類型、垃圾回收和異步編程等特點。 1）C/C 是靜態類型語言，需手動管理內存，而JavaScript是動態類型，垃圾回收自動處理。 2）C/C 需編譯成機器碼，JavaScript則為解釋型語言。 3）JavaScript引入閉包、原型鍊和Promise等概念，增強了靈活性和異步編程能力。

JavaScript引擎：比較實施Apr 13, 2025 am 12:05 AM

不同JavaScript引擎在解析和執行JavaScript代碼時，效果會有所不同，因為每個引擎的實現原理和優化策略各有差異。 1.詞法分析：將源碼轉換為詞法單元。 2.語法分析：生成抽象語法樹。 3.優化和編譯：通過JIT編譯器生成機器碼。 4.執行：運行機器碼。 V8引擎通過即時編譯和隱藏類優化，SpiderMonkey使用類型推斷系統，導致在相同代碼上的性能表現不同。

超越瀏覽器：現實世界中的JavaScriptApr 12, 2025 am 12:06 AM

JavaScript在現實世界中的應用包括服務器端編程、移動應用開發和物聯網控制：1.通過Node.js實現服務器端編程，適用於高並發請求處理。 2.通過ReactNative進行移動應用開發，支持跨平台部署。 3.通過Johnny-Five庫用於物聯網設備控制，適用於硬件交互。

使用Next.js（後端集成）構建多租戶SaaS應用程序Apr 11, 2025 am 08:23 AM

我使用您的日常技術工具構建了功能性的多租戶SaaS應用程序（一個Edtech應用程序），您可以做同樣的事情。首先，什麼是多租戶SaaS應用程序？多租戶SaaS應用程序可讓您從唱歌中為多個客戶提供服務

如何使用Next.js（前端集成）構建多租戶SaaS應用程序Apr 11, 2025 am 08:22 AM

本文展示了與許可證確保的後端的前端集成，並使用Next.js構建功能性Edtech SaaS應用程序。前端獲取用戶權限以控制UI的可見性並確保API要求遵守角色庫

JavaScript：探索網絡語言的多功能性Apr 11, 2025 am 12:01 AM

JavaScript是現代Web開發的核心語言，因其多樣性和靈活性而廣泛應用。 1)前端開發：通過DOM操作和現代框架（如React、Vue.js、Angular）構建動態網頁和單頁面應用。 2)服務器端開發：Node.js利用非阻塞I/O模型處理高並發和實時應用。 3)移動和桌面應用開發：通過ReactNative和Electron實現跨平台開發，提高開發效率。