>  Q&A  >  본문

python - 禁止自己的网站被爬虫爬去?

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理大家讲道理2742일 전1025

모든 응답(13)나는 대답할 것이다

  • 迷茫

    迷茫2017-04-17 17:35:35

    콘텐츠가 포함된 robots.txt 파일 추가:

    으아악

    회신하다
    0
  • 怪我咯

    怪我咯2017-04-17 17:35:35

    robots.txt를 추가하여 크롤러가 내 웹사이트를 크롤링하지 않도록 하세요. 하지만 강제로 차단되지는 않습니다. 이는 양 당사자가 준수해야 하는 합의일 뿐입니다.

    회신하다
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    당신이 말하는 크롤러가 바이두 크롤러를 말하는 것인지, 아니면 저희가 직접 작성한 크롤러를 말하는 것인지는 모르겠습니다.

    Baidu 크롤러는 위의 방법만 따르면 됩니다. 모든 클래스나 ID를 동적으로 생성하는 등 다른 사람의 크롤러를 방지하는 방법은 많습니다. 크롤러는 일반적으로 클래스나 ID를 통해 원하는 것을 얻기 위해 HTML을 구문 분석하기 때문입니다.

    회신하다
    0
  • 大家讲道理

    大家讲道理2017-04-17 17:35:35

    어떤 파충류인지에 따라서도 다릅니다
    신사형? 세밀화?
    이 크롤러가 robots.txt 계약을 준수할 수 있다면 괜찮습니다
    하지만 이건 신사의 계약일 뿐입니다
    악당을 만나면 괜찮습니다

    회신하다
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    1) JS용 gzip 압축을 시도할 수 있습니다. 많은 크롤러는 gzip으로 압축된 js를 크롤링하지 않습니다.
    2) 로그를 사용하여 주요 리소스에 대한 악의적인 액세스인 경우 상대방 고정 IP이므로 상대방 IP를 차단해 볼 수 있습니다

    회신하다
    0
  • 黄舟

    黄舟2017-04-17 17:35:35

    공정하게 말하면 절대 불가능합니다

    회신하다
    0
  • 天蓬老师

    天蓬老师2017-04-17 17:35:35

    무슨 소용이 없나요? 일단 웹사이트가 사람들에게 공개되어 있다면, 내부 네트워크로 바꾸지 않는 한 자연스럽게 크롤러들에게 공개될 것입니다. 요즘에는 기밀정보 웹사이트가 다 돌아다닐 뿐 사용자 경험은 기본적으로 개선되지 않습니다.

    회신하다
    0
  • 迷茫

    迷茫2017-04-17 17:35:35

    아, 클래스와 ID를 엉망으로 만들어 정규 규칙이 일치하지 않게 할 수 있습니다

    회신하다
    0
  • 阿神

    阿神2017-04-17 17:35:35

    js를 사용하여 웹페이지의 모든 콘텐츠를 동적으로 생성하는 것이 가능한지 모르겠습니다

    회신하다
    0
  • 巴扎黑

    巴扎黑2017-04-17 17:35:35

    우선 위에서 언급한 내부 네트워크가 아닌 이상 크롤러가 100% 크롤링되는 것을 방지하기는 어렵습니다.

    그러나 일부 기술이 부족한 크롤러가 귀하의 웹사이트를 크롤링하는 것을 방지하기 위해 몇 가지 조치를 취할 수 있습니다.

    구체적인 조치를 보려면 Zhihu로 이동하여 이 기사를 읽으려면 여기를 클릭하세요

    도움이 되셨으면 좋겠습니다

    회신하다
    0
  • 취소회신하다