Maison  >  Article  >  interface Web  >  Comment utiliser le robot d'exploration Node.js pour implémenter des requêtes de pages Web

Comment utiliser le robot d'exploration Node.js pour implémenter des requêtes de pages Web

亚连
亚连original
2018-06-12 14:54:491436parcourir

Cet article présente principalement le module de requête Web du robot Node.js. Maintenant, je le partage avec vous et le donne comme référence.

Cet article présente le module de requête Web du robot d'exploration Node.js et le partage avec tout le monde. Les détails sont les suivants :

Remarque : si vous téléchargez la dernière version de Nodegrass, car certaines méthodes l'ont fait. a été mis à jour, les exemples de cet article ne conviennent plus. Veuillez consulter les exemples dans l'adresse open source pour plus de détails.

1. Pourquoi devrais-je écrire un tel module ?

L'auteur souhaitait utiliser Node.js pour écrire un robot. Bien que la méthode de demande de ressources distantes fournie par l'API officielle Node.js soit très simple, veuillez vous référer à

. http:// nodejs.org/api/http.html Parmi elles, deux méthodes sont proposées pour les requêtes Http : http.get(options, callback) et http.request(options, callback

Vous le ferez). sachez en regardant la méthode, get La méthode est utilisée pour les requêtes get, tandis que la méthode de requête fournit plus de paramètres, tels que d'autres méthodes de requête, le port de l'hôte demandeur, etc. Les requêtes Https sont similaires à Http. L'exemple le plus simple :

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

Pour le code ci-dessus, nous voulons simplement demander à l'hôte distant et obtenir les informations de réponse, telles que l'état de la réponse, l'en-tête de la réponse et le contenu du corps de la réponse. Le deuxième paramètre de la méthode get est une fonction de rappel. Nous obtenons les informations de réponse de manière asynchrone, et vous obtenez d (le deuxième paramètre de la méthode on. informations de réponse que vous avez demandées), il est très probable que des rappels seront à nouveau introduits lors de son utilisation, couche par couche, et finalement s'évanouiront. . . Pour la programmation asynchrone, certains étudiants habitués à écrire du code de manière synchrone sont très confus. Bien sûr, d'excellentes bibliothèques de synchronisation ont été fournies au pays et à l'étranger, comme Wind.js de Lao Zhao... Il semble que c'est un peu. farfelu. En fait, ce que nous voulons finalement obtenir en appelant get, ce sont les informations de réponse, et nous ne nous soucions pas du processus de surveillance tel que res.on car il est trop paresseux. Je ne veux pas res.on('data',func) à chaque fois, donc le nodegrass que je veux présenter aujourd'hui est né.

2. Nodegrass demande des ressources, comme $.get(url,func) de Jquery

L'exemple le plus simple :

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

À première vue , il n'y a aucune différence avec l'original officiel, c'est en effet presque la même chose =. =! Il lui manque juste une couche de rappels de surveillance des événements de res.on('data',func). Croyez-le ou non, de toute façon, je me sens beaucoup plus à l'aise. Le deuxième paramètre est également une fonction de rappel, dans laquelle les données du paramètre sont le contenu du corps de la réponse, le statut est l'état de la réponse et les en-têtes sont les en-têtes de la réponse. Après avoir obtenu le contenu de la réponse, nous pouvons extraire toutes les informations qui nous intéressent des ressources obtenues. Bien entendu, dans cet exemple, il ne s’agit que d’une simple console imprimée. Le troisième paramètre est le codage des caractères. Actuellement, Node.js ne prend pas en charge gbk en interne, fait référence à iconv-lite pour le traitement. Par conséquent, si le codage de la page Web que vous demandez est gbk, comme Baidu. Ajoutez simplement ce paramètre.

Et les requêtes https ? S'il s'agit d'une API officielle, vous devez introduire le module https, mais la méthode request get est similaire à http, donc nodegrass les intègre d'ailleurs. Regardez l'exemple :

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass identifiera automatiquement s'il s'agit de http ou de https en fonction de l'url. Bien sûr, votre URL doit l'avoir. Vous ne pouvez pas simplement écrire www.baidu.com/ mais http. https://www.baidu.com/.

Pour les demandes de publication, nodegrass fournit la méthode post, voir l'exemple :

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

Ce qui précède fait partie de Sina Weibo Auth2.0 demandant accessToken, dans lequel la demande de publication de nodegrass access_token est utilisée API.

La méthode post fournit plus de paramètres et d'options d'en-tête de demande d'en-tête - données de publication que la méthode get, qui sont tous des types de littéraux d'objet :

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };

3. comme serveur proxy ? ...**

Regardez l'exemple :

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');

C'est aussi simple que cela, bien sûr, le serveur proxy est beaucoup plus compliqué, cela ne compte pas, mais. au moins vous accédez au port local 8088. Voyez-vous la page du blog ?

L'adresse open source de nodegrass : https://github.com/scottkiss/nodegrass

Ce qui précède est ce que j'ai compilé pour tout le monde. J'espère que cela sera utile à tout le monde à l'avenir. .

Articles connexes :

Parcours récursif JavaScript et parcours non récursif

Comment utiliser le composant de téléchargement Upload d'element-ui dans vue

Comment implémenter les appels entre méthodes dans vue

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn