node.js - node crawler, comment utiliser le pool IP pour empêcher l'anti-crawling ?

Question

Le problème est le suivant. Je suis un débutant qui vient de commencer à apprendre le nœud. Bien sûr, c'est évidemment destiné aux robots d'exploration. Ensuite, j'ai récemment lu un roman, mais il y avait trop de publicités sur ces sites Web de romans gratuits, j'ai donc prévu d'écrire un robot pour explorer l'intégralité du roman. Cependant, le nombre de demandes d'URL était trop fréquent, ce qui serait inversé. -rampé et bloqué ..

高洛峰 · Answer

Anti-crawling signifie que le programme de contrôle ne peut pas utiliser une seule adresse IP pour explorer le même site Web plusieurs fois à une fréquence très rapide. Voici l'idée. Maintenant qu'il existe un pool d'adresses IP, le programme peut utiliser plusieurs adresses IP pour lancer des requêtes. Dans ce cas, ce que vous faites est de modifier régulièrement l'adresse IP utilisée par le programme. Par exemple, en fonction de votre fréquence d'exploration, une demi-heure, une demi-journée ou plus est un intervalle. Lorsque le temps est écoulé, remplacez un. IP pour le programme d'exploration Voici un lien, node Agent, peut-être utile/q/10...

node.js - node crawler, comment utiliser le pool IP pour empêcher l'anti-crawling ?

répondre à tous(1)je répondrai