cari

Rumah  >  Soal Jawab  >  teks badan

python - 禁止自己的网站被爬虫爬去?

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理大家讲道理2836 hari yang lalu1128

membalas semua(13)saya akan balas

  • 迷茫

    迷茫2017-04-17 17:35:35

    Tambahkan fail robots.txt dengan kandungan:

    User-agent: *
    Disallow: /

    balas
    0
  • 怪我咯

    怪我咯2017-04-17 17:35:35

    Tambah robots.txt untuk memberitahu perangkak supaya tidak merangkak tapak web saya, tetapi ia tidak akan diharamkan secara paksa Ini hanyalah perjanjian yang perlu dipatuhi oleh kedua-dua pihak.

    balas
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    Saya tidak tahu sama ada perangkak yang anda maksudkan merujuk kepada perangkak Baidu atau perangkak yang kami tulis sendiri.

    Perangkak Baidu hanya boleh mengikut kaedah di atas Terdapat banyak cara untuk menghalang perangkak orang lain, seperti menjana semua kelas atau id secara dinamik. Kerana perangkak biasanya menghuraikan HTML untuk mendapatkan apa yang mereka mahu melalui kelas atau id.

    balas
    0
  • 大家讲道理

    大家讲道理2017-04-17 17:35:35

    Ia juga bergantung kepada jenis reptilia itu
    Jenis lelaki budiman? Miniatur?
    Jika crawler ini boleh mematuhi perjanjian robots.txt, maka tidak mengapa
    Tetapi ini hanya perjanjian seorang lelaki
    Jika ia bertemu dengan penjahat, maka tidak mengapa

    balas
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    1) Anda boleh mencuba pemampatan gzip untuk JS Ramai perangkak tidak akan merangkak js yang dimampatkan gzip
    2) Gunakan log untuk menganalisis log pelayan web Jika ia adalah akses berniat jahat kepada sumber utama anda pihak lain Ia adalah IP tetap, anda boleh cuba mengharamkan IP pihak lain

    balas
    0
  • 黄舟

    黄舟2017-04-17 17:35:35

    Untuk bersikap adil, mustahil untuk melakukannya secara mutlak

    balas
    0
  • 天蓬老师

    天蓬老师2017-04-17 17:35:35

    Tidak berguna Pertama sekali, jika tapak web anda terbuka kepada orang, ia secara semula jadi akan terbuka kepada perangkak Melainkan ia ditukar kepada rangkaian dalaman, jika anda menumpukan pada menghalang perangkak daripada bangun, anda juga boleh menambah baik Pada masa kini, laman web maklumat terperingkat semuanya Ia hanya merangkak, tetapi pengalaman pengguna pada dasarnya tidak bertambah baik.

    balas
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    Pfft, anda boleh mengacaukan kelas dan id supaya peraturan biasa tidak sepadan

    balas
    0
  • 阿神

    阿神2017-04-17 17:35:35

    Saya tidak tahu sama ada boleh menjana semua kandungan js dalam halaman web secara dinamik

    balas
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    Pertama sekali, sukar untuk anda menghalang 100% crawler daripada dirangkak, melainkan ia adalah rangkaian dalaman seperti yang dinyatakan di atas.

    Tetapi anda boleh mengambil beberapa langkah untuk menghalang beberapa perangkak berteknologi rendah daripada merangkak tapak web anda.

    Untuk langkah khusus, anda boleh pergi ke Zhihu Untuk membaca artikel ini, klik di sini

    Semoga ia membantu anda

    balas
    0
  • Batalbalas