python - 禁止自己的网站被爬虫爬去？

Question

禁止自己的网站被爬虫爬去？有什么方法啊

迷茫 · Answer

콘텐츠가 포함된 robots.txt 파일 추가:

으아악

怪我咯 · Answer

robots.txt를 추가하여 크롤러가 내 웹사이트를 크롤링하지 않도록 하세요. 하지만 강제로 차단되지는 않습니다. 이는 양 당사자가 준수해야 하는 합의일 뿐입니다.

巴扎黑 · Answer

당신이 말하는 크롤러가 바이두 크롤러를 말하는 것인지, 아니면 저희가 직접 작성한 크롤러를 말하는 것인지는 모르겠습니다.

Baidu 크롤러는 위의 방법만 따르면 됩니다. 모든 클래스나 ID를 동적으로 생성하는 등 다른 사람의 크롤러를 방지하는 방법은 많습니다. 크롤러는 일반적으로 클래스나 ID를 통해 원하는 것을 얻기 위해 HTML을 구문 분석하기 때문입니다.

大家讲道理 · Answer

어떤 파충류인지에 따라서도 다릅니다
신사형? 세밀화?
이 크롤러가 robots.txt 계약을 준수할 수 있다면 괜찮습니다
하지만 이건 신사의 계약일 뿐입니다
악당을 만나면 괜찮습니다

迷茫 · Answer

1) JS용 gzip 압축을 시도할 수 있습니다. 많은 크롤러는 gzip으로 압축된 js를 크롤링하지 않습니다.
2) 로그를 사용하여 주요 리소스에 대한 악의적인 액세스인 경우 상대방 고정 IP이므로 상대방 IP를 차단해 볼 수 있습니다

黄舟 · Answer

공정하게 말하면 절대 불가능합니다

天蓬老师 · Answer

무슨 소용이 없나요? 일단 웹사이트가 사람들에게 공개되어 있다면, 내부 네트워크로 바꾸지 않는 한 자연스럽게 크롤러들에게 공개될 것입니다. 요즘에는 기밀정보 웹사이트가 다 돌아다닐 뿐 사용자 경험은 기본적으로 개선되지 않습니다.

迷茫 · Answer

아, 클래스와 ID를 엉망으로 만들어 정규 규칙이 일치하지 않게 할 수 있습니다

阿神 · Answer

js를 사용하여 웹페이지의 모든 콘텐츠를 동적으로 생성하는 것이 가능한지 모르겠습니다

巴扎黑 · Answer

우선 위에서 언급한 내부 네트워크가 아닌 이상 크롤러가 100% 크롤링되는 것을 방지하기는 어렵습니다.

그러나 일부 기술이 부족한 크롤러가 귀하의 웹사이트를 크롤링하는 것을 방지하기 위해 몇 가지 조치를 취할 수 있습니다.

구체적인 조치를 보려면 Zhihu로 이동하여 이 기사를 읽으려면 여기를 클릭하세요

도움이 되셨으면 좋겠습니다