Maison  >  Article  >  interface Web  >  Explication détaillée du module de requête Web du robot Node.js

Explication détaillée du module de requête Web du robot Node.js

小云云
小云云original
2018-01-13 09:07:031480parcourir

Cet article présente principalement le module de requête Web du robot d'exploration Node.js. L'éditeur pense qu'il est plutôt bon, je vais donc le partager avec vous maintenant et le donner comme référence. Suivons l'éditeur pour y jeter un œil, j'espère que cela pourra aider tout le monde.

Cet article présente le module de requête Web du robot d'exploration Node.js et le partage avec tout le monde. Les détails sont les suivants :

Remarque : si vous téléchargez la dernière version de Nodegrass, certains. Les méthodes ont été mises à jour. Les exemples de cet article ne conviennent plus. Veuillez vérifier les exemples dans l'adresse open source pour plus de détails.

1. Pourquoi devrais-je écrire un tel module ?

L'auteur souhaitait utiliser Node.js pour écrire un robot. Bien que la méthode de demande de ressources distantes fournie par l'API officielle Node.js soit très simple, veuillez vous référer à

. http://nodejs.org/api/http.html Parmi elles, deux méthodes sont proposées pour les requêtes Http : http.get(options, callback) et http.request(options, callback

Vous le ferez). sachez en regardant la méthode, get La méthode est utilisée pour les requêtes get, tandis que la méthode de requête fournit plus de paramètres, tels que d'autres méthodes de requête, le port de l'hôte demandeur, etc. Les requêtes Https sont similaires à Http. L'exemple le plus simple :


var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});

Pour le code ci-dessus, nous voulons simplement demander à l'hôte distant et obtenir les informations de réponse, telles que l'état de la réponse, l'en-tête de réponse et contenu du corps de la réponse. Le deuxième paramètre de la méthode get est une fonction de rappel. Nous obtenons les informations de réponse de manière asynchrone, et vous obtenez d (le deuxième paramètre de la méthode on. informations de réponse que vous avez demandées), il est très probable que des rappels seront à nouveau introduits lors de son utilisation, couche par couche, et finalement s'évanouiront. . . Pour la programmation asynchrone, certains étudiants habitués à écrire du code de manière synchrone sont très confus. Bien sûr, d'excellentes bibliothèques de synchronisation ont été fournies au pays et à l'étranger, comme Wind.js de Lao Zhao... Il semble que c'est un peu. farfelu. En fait, ce que nous voulons finalement obtenir en appelant get, ce sont les informations de réponse, et nous ne nous soucions pas du processus d'écoute tel que res.on car il est trop paresseux. Je ne veux pas avoir à res.on('data',func) à chaque fois, donc le nodegrass que je veux présenter aujourd'hui est né.

2. Nodegrass demande des ressources, comme $.get(url,func) de Jquery

L'exemple le plus simple :


var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});

À première vue, il n'y a aucune différence avec l'original officiel, c'est en effet presque pareil =. =! Il lui manque juste une couche de rappels de surveillance des événements de res.on('data',func). Croyez-le ou non, de toute façon, je me sens beaucoup plus à l'aise. Le deuxième paramètre est également une fonction de rappel, dans laquelle les données du paramètre sont le contenu du corps de la réponse, le statut est l'état de la réponse et les en-têtes sont les en-têtes de la réponse. Après avoir obtenu le contenu de la réponse, nous pouvons extraire toutes les informations qui nous intéressent des ressources obtenues. Bien entendu, dans cet exemple, il ne s’agit que d’une simple console imprimée. Le troisième paramètre est le codage des caractères. Actuellement, Node.js ne prend pas en charge gbk. Nodegrass fait référence en interne à iconv-lite pour le traitement. Par conséquent, si le codage de la page Web que vous demandez est gbk, comme Baidu. Ajoutez simplement ce paramètre.

Et les requêtes https ? S'il s'agit d'une API officielle, vous devez introduire le module https, mais la méthode request get est similaire à http, donc nodegrass les intègre d'ailleurs. Regardez l'exemple :


var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});

nodegrass identifiera automatiquement s'il s'agit de http ou de https en fonction de l'url. Bien sûr, votre URL doit l'avoir, vous pouvez. Il ne suffit pas d'écrire www.baidu.com/ Nécessite http://www.baidu.com/.

Pour les demandes de publication, nodegrass fournit la méthode de publication, voir l'exemple :


var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');

Ce qui précède fait partie de la demande Sina Weibo Auth2.0 accessToken , qui utilise l'API access_token de demande de publication nodegrass.

La méthode post fournit plus de paramètres et d'options d'en-tête de demande d'en-tête - données de publication que la méthode get. Ce sont tous des types de littéraux d'objet :


var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };
<.>

3. Utiliser nodegrass comme serveur proxy ? ...**

Regardez l'exemple :



var ng = require(&#39;nodegrass&#39;),
   http=require(&#39;http&#39;),
   url=require(&#39;url&#39;);

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === &#39;/&#39;){
      ng.get(&#39;http://www.cnblogs.com/&#39;,function(data){
        res.writeHeader(200,{&#39;Content-Type&#39;:&#39;text/html;charset=utf-8&#39;});
        res.write(data+"\n");
        res.end();
        },&#39;utf8&#39;);
      }
   }).listen(8088);
   console.log(&#39;server listening 8088...&#39;);
C'est aussi simple que cela. beaucoup plus compliqué. Ce n'est pas le cas, mais au moins lorsque vous accédez au port local 8088, ce que vous voyez est la page du parc de blogs ?

L'adresse open source de nodegrass : https://github.com/scottkiss/nodegrass

Recommandations associées :


Informations de développement Node.js Processus d'exploration Partage de code

Tutoriel d'instance d'exploration de l'encyclopédie NodeJS

Problèmes connexes Résolution des problèmes d'exploration


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn