recherche

Maison  >  Questions et réponses  >  le corps du texte

python - 禁止自己的网站被爬虫爬去?

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理大家讲道理2821 Il y a quelques jours1117

répondre à tous(13)je répondrai

  • 迷茫

    迷茫2017-04-17 17:35:35

    Ajouter un fichier robots.txt avec du contenu :

    User-agent: *
    Disallow: /

    répondre
    0
  • 怪我咯

    怪我咯2017-04-17 17:35:35

    Ajoutez robots.txt pour indiquer au robot d'exploration de ne pas explorer mon site Web, mais il ne sera pas interdit de force. Il s'agit simplement d'un accord que les deux parties doivent respecter.

    répondre
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    Je ne sais pas si le robot dont vous parlez fait référence au robot Baidu ou au robot que nous avons écrit nous-mêmes.

    Les robots d'exploration Baidu peuvent simplement suivre la méthode ci-dessus. Il existe de nombreuses façons d'empêcher les robots d'autres personnes, par exemple de générer dynamiquement toutes les classes ou tous les identifiants. Parce que les robots analysent généralement le HTML pour obtenir ce qu'ils veulent via la classe ou l'identifiant.

    répondre
    0
  • 大家讲道理

    大家讲道理2017-04-17 17:35:35

    Cela dépend aussi de quel type de reptile il s'agit
    Un type gentleman ? Miniature?
    Si ce robot peut respecter l'accord robots.txt, alors ce n'est pas grave
    Mais ce n'est qu'un gentleman's Agreement
    S'il rencontre un méchant, alors ce n'est pas grave

    répondre
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    1) Vous pouvez essayer la compression gzip pour JS. De nombreux robots d'exploration n'analyseront pas les js compressés avec gzip
    2) Utilisez le journal pour analyser les journaux du serveur Web s'il s'agit d'un accès malveillant à vos ressources clés et à celles-ci. autre partie C'est une IP fixe, vous pouvez essayer de bannir l'IP de l'autre partie

    répondre
    0
  • 黄舟

    黄舟2017-04-17 17:35:35

    Pour être honnête, c’est impossible de le faire absolument

    répondre
    0
  • 天蓬老师

    天蓬老师2017-04-17 17:35:35

    C'est inutile. Tout d'abord, si votre site Web est ouvert aux gens, il sera naturellement ouvert aux robots d'exploration. A moins qu'il ne soit transformé en un réseau interne, si vous vous concentrez sur l'empêchement des robots d'exploration, autant vous améliorer. la qualité. De nos jours, les sites Web d'informations classifiées sont tout simplement rampants, mais l'expérience utilisateur n'est fondamentalement pas améliorée.

    répondre
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    Pfft, vous pouvez gâcher les classes et les identifiants pour que les règles habituelles ne puissent pas correspondre

    répondre
    0
  • 阿神

    阿神2017-04-17 17:35:35

    Je ne sais pas s'il est possible de générer dynamiquement tout le contenu js dans la page Web

    répondre
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    Tout d'abord, il vous est difficile d'empêcher l'exploration à 100 % des robots, à moins qu'il ne s'agisse d'un réseau interne comme mentionné ci-dessus.

    Mais vous pouvez prendre certaines mesures pour empêcher certains robots d'exploration low-tech d'explorer votre site Web.

    Pour des mesures spécifiques, vous pouvez vous rendre sur Zhihu. Pour lire cet article, cliquez ici

    J'espère que cela vous aidera

    répondre
    0
  • Annulerrépondre