ホームページ >ウェブフロントエンド >jsチュートリアル >node.js は、Web ページの js ファイルをクロールして分析し、特別な content_node.js があるかどうかを確認します。

node.js は、Web ページの js ファイルをクロールして分析し、特別な content_node.js があるかどうかを確認します。

WBOY
WBOYオリジナル
2016-05-16 15:31:491134ブラウズ

Nodejs は Web ページのコンテンツを取得し、データ イベントをバインドします。取得したデータは複数回に分けて応答されます。グローバル コンテンツと一致させたい場合は、リクエストが終了するのを待って、蓄積されたグローバル データを操作する必要があります。最後のイベントで!

たとえば、ページに www.baidu.com があるかどうかを知りたい場合は、これ以上は言いませんが、次のコードを入力するだけです:

//引入模块
var http = require("http"),
fs = require('fs'),
url = require('url');
//写入文件,把结果写入不同的文件
var writeRes = function(p, r) {
   fs.appendFile(p , r, function(err) {
    if(err)
       console.log(err);
    else
       console.log(r);
  });
},
//发请求,并验证内容,把结果写入文件
postHttp = function(arr, num) {
   console.log('第'+num+"条!")
   var a = arr[num].split(" - ");
   if(!a[0] || !a[1]) {
     return;
   }
   var address = url.parse(a[1]),
   options = {
     host : address.host,
     path: address.path,
     hostname : address.hostname,
     method: 'GET',
     headers: {
      'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
    }
   }
   var req = http.request(options, function(res) {
     if (res.statusCode == 200) {
        res.setEncoding('UTF-8');
        var data = '';
        res.on('data', function (rd) {  
          data += rd;
        });
        res.on('end', function(q) {
          if(!~data.indexOf("www.baidu.com")) {
             return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');            
          } else {
             return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");
          }
        })
     } else {
        writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');
     }
   });
   req.on('error', function(e) {
     writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');
   })
   req.end();
},
//读取文件,获取需要抓取的页面
openFile = function(path, coding) {
   fs.readFile(path, coding, function(err, data) {
     var res = data.split("\n");  
     for (var i = 0, rl = res.length; i < rl; i++) {
        if(!res[i])
          continue;
        postHttp(res, i);  
     };  
   })
};
openFile('./sites.log', 'utf-8');

上記のコードは理解できますが、不明な点がある場合は、具体的な詳細は皆さんの実際のアプリケーションによって異なりますので、メッセージを残してください。

以下では、Web ページをクロールする Nodejs の機能を紹介します

初めての PHP。まず利点について説明します。オンラインでは HTML をクロールおよび解析するためのフレームワークが多数あり、さまざまなツールを直接使用できるため、より安心です。欠点: まず第一に、速度/効率が問題です。かつて、映画のポスターをダウンロードしたときに、crontab が定期的に実行され、最適化が行われなかったことがあり、メモリを直接圧迫していました。文法も非常に遅く、キーワードや記号が多すぎて、簡潔さが足りず、書くのが非常に面倒です。

Node.js。利点は、効率、効率、そして効率であるため、キャプチャされたデータの複雑な計算や処理がなければ、基本的には数百の同時プロセスと同じくらい強力です。システムのボトルネック 基本的に、帯域幅と、MySQL などのデータベースへの書き込みの I/O 速度に依存します。もちろん、非同期ネットワークでは、利点の逆に欠点もあります。このとき、ビジネス需要が線形である場合、前のページの取得が完了するまで待ってからデータを取得する必要があります。次のページを取得すると、さらに多くのレイヤー依存関係が発生し、ひどいマルチレイヤー コールバックが発生します。基本的にこの時点では、コードの構造とロジックはめちゃくちゃになります。もちろん、ステップやその他のプロセス制御ツールを使用して、これらの問題を解決することもできます。

最後に、Python について話しましょう。効率性に対する極端な要件がない場合は、Python をお勧めします。まず、Python の構文は非常に簡潔であり、同じステートメントをキーボード上に何度も保存できます。そして、Pythonは関数パラメータのパッケージングやアンパック、リスト分析、行列処理などのデータ処理に非常に適しており、非常に便利です。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。