ホームページ  >  に質問  >  本文

python - 禁止自己的网站被爬虫爬去?

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理大家讲道理2742日前1037

全員に返信(13)返信します

  • 黄舟

    黄舟2017-04-17 17:35:35

    標的型クローラから防御する場合は、アクセス頻度などのアクセス制限を設定したり、確認コードを追加したりできます。

    返事
    0
  • 阿神

    阿神2017-04-17 17:35:35

    1. 重要なコンテンツは js を使用して動的に追加されます

    2. http_referer を制限する

    3. 異なるインターフェースは異なるテンプレートを考慮することができますが、これは一連の正規表現が完全に一致できない種類のものです

    4. クロールされる可能性のあるコンテンツに著作権情報をランダムに追加します

    5. にログインした後でのみアクセスできます

    6. アクセスログを記録する

    私が思いつくのはこれだけですが、本当に捕まえたい場合は、これらは少し難しくするだけです

    返事
    0
  • 高洛峰

    高洛峰2017-04-17 17:35:35

    検索エンジンのクロールを無効にするには、robots.txt を変更します。
    個人のクロールを無効にするのは少し難しく、より複雑な確認コード、アクセス頻度、通常のスタイル/データを追加するなど、難易度を高めるしかありません。形式の変更など

    返事
    0
  • キャンセル返事