python - 禁止自己的网站被爬虫爬去？

Question

禁止自己的网站被爬虫爬去？有什么方法啊

迷茫 · Answer

次の内容を含む robots.txt ファイルを追加します:

リーリー

怪我咯 · Answer

robots.txt を追加して、クローラーに Web サイトをクロールしないよう指示します。ただし、これは、両当事者が遵守する必要がある単なる合意です。

巴扎黑 · Answer

あなたが話しているクローラーが、Baidu クローラーを指すのか、それとも私たちが独自に作成したクローラーを指すのかはわかりません。

Baidu クローラーは上記の方法に従うだけで、すべてのクラスや ID を動的に生成するなど、他の人のクローラーを防ぐ方法はたくさんあります。クローラーは通常、HTML を解析して、クラスまたは ID を通じて必要なものを取得するためです。

大家讲道理 · Answer

爬虫類の種類にもよります
紳士タイプ？ミニチュア？
このクローラーが robots.txt の合意を遵守できるのであれば、問題ありません
しかし、これは単なる紳士協定です
悪者に遭遇しても、問題ありません

迷茫 · Answer

1) JS の gzip 圧縮を試すことができます。多くのクローラーは gzip 圧縮された JS をクロールしません。
2) 主要なリソースへの悪意のあるアクセスである場合は、ログを使用して分析します。相手は固定IPですので、相手のIPを禁止してみることができます

黄舟 · Answer

正直に言うと、絶対にそれを行うのは不可能です

天蓬老师 · Answer

まず、Web サイトが公開されている場合、内部ネットワークに変更しない限り、クローラーに対して公開されることになります。昨今の機密情報サイトはただ這い回っているだけで、基本的にユーザーエクスペリエンスは向上していません。

迷茫 · Answer

ふん、クラスと ID をめちゃくちゃにして、通常のルールと一致しなくすることもできます

阿神 · Answer

Web ページのすべてのコンテンツを js を使用して動的に生成できるかどうかはわかりません

巴扎黑 · Answer

まず第一に、上記のような内部ネットワークでない限り、クローラーのクロールを 100% 防ぐことは困難です。

ただし、ローテククローラーによる Web サイトの巡回を防ぐために、いくつかの対策を講じることはできます。

具体的な対策については、Zhihu にアクセスしてこの記事を読んでください

お役に立てば幸いです