怪我咯2017-04-17 17:35:35
robots.txt を追加して、クローラーに Web サイトをクロールしないよう指示します。ただし、これは、両当事者が遵守する必要がある単なる合意です。
巴扎黑2017-04-17 17:35:35
あなたが話しているクローラーが、Baidu クローラーを指すのか、それとも私たちが独自に作成したクローラーを指すのかはわかりません。
Baidu クローラーは上記の方法に従うだけで、すべてのクラスや ID を動的に生成するなど、他の人のクローラーを防ぐ方法はたくさんあります。クローラーは通常、HTML を解析して、クラスまたは ID を通じて必要なものを取得するためです。
大家讲道理2017-04-17 17:35:35
爬虫類の種類にもよります
紳士タイプ?ミニチュア?
このクローラーが robots.txt の合意を遵守できるのであれば、問題ありません
しかし、これは単なる紳士協定です
悪者に遭遇しても、問題ありません
迷茫2017-04-17 17:35:35
1) JS の gzip 圧縮を試すことができます。多くのクローラーは gzip 圧縮された JS をクロールしません。
2) 主要なリソースへの悪意のあるアクセスである場合は、ログを使用して分析します。相手は固定IPですので、相手のIPを禁止してみることができます
天蓬老师2017-04-17 17:35:35
まず、Web サイトが公開されている場合、内部ネットワークに変更しない限り、クローラーに対して公開されることになります。昨今の機密情報サイトはただ這い回っているだけで、基本的にユーザーエクスペリエンスは向上していません。
巴扎黑2017-04-17 17:35:35
まず第一に、上記のような内部ネットワークでない限り、クローラーのクロールを 100% 防ぐことは困難です。
ただし、ローテク クローラーによる Web サイトの巡回を防ぐために、いくつかの対策を講じることはできます。
具体的な対策については、Zhihu にアクセスしてこの記事を読んでください
お役に立てば幸いです