ホームページ  >  に質問  >  本文

python - 禁止自己的网站被爬虫爬去?

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理大家讲道理2742日前1031

全員に返信(13)返信します

  • 迷茫

    迷茫2017-04-17 17:35:35

    次の内容を含む robots.txt ファイルを追加します:

    リーリー

    返事
    0
  • 怪我咯

    怪我咯2017-04-17 17:35:35

    robots.txt を追加して、クローラーに Web サイトをクロールしないよう指示します。ただし、これは、両当事者が遵守する必要がある単なる合意です。

    返事
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    あなたが話しているクローラーが、Baidu クローラーを指すのか、それとも私たちが独自に作成したクローラーを指すのかはわかりません。

    Baidu クローラーは上記の方法に従うだけで、すべてのクラスや ID を動的に生成するなど、他の人のクローラーを防ぐ方法はたくさんあります。クローラーは通常、HTML を解析して、クラスまたは ID を通じて必要なものを取得するためです。

    返事
    0
  • 大家讲道理

    大家讲道理2017-04-17 17:35:35

    爬虫類の種類にもよります
    紳士タイプ?ミニチュア?
    このクローラーが robots.txt の合意を遵守できるのであれば、問題ありません
    しかし、これは単なる紳士協定です
    悪者に遭遇しても、問題ありません

    返事
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    1) JS の gzip 圧縮を試すことができます。多くのクローラーは gzip 圧縮された JS をクロールしません。
    2) 主要なリソースへの悪意のあるアクセスである場合は、ログを使用して分析します。相手は固定IPですので、相手のIPを禁止してみることができます

    返事
    0
  • 黄舟

    黄舟2017-04-17 17:35:35

    正直に言うと、絶対にそれを行うのは不可能です

    返事
    0
  • 天蓬老师

    天蓬老师2017-04-17 17:35:35

    まず、Web サイトが公開されている場合、内部ネットワークに変更しない限り、クローラーに対して公開されることになります。昨今の機密情報サイトはただ這い回っているだけで、基本的にユーザーエクスペリエンスは向上していません。

    返事
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    ふん、クラスと ID をめちゃくちゃにして、通常のルールと一致しなくすることもできます

    返事
    0
  • 阿神

    阿神2017-04-17 17:35:35

    Web ページのすべてのコンテンツを js を使用して動的に生成できるかどうかはわかりません

    返事
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    まず第一に、上記のような内部ネットワークでない限り、クローラーのクロールを 100% 防ぐことは困難です。

    ただし、ローテク クローラーによる Web サイトの巡回を防ぐために、いくつかの対策を講じることはできます。

    具体的な対策については、Zhihu にアクセスしてこの記事を読んでください

    お役に立てば幸いです

    返事
    0
  • キャンセル返事