怪我咯2017-04-17 17:35:35
robots.txt를 추가하여 크롤러가 내 웹사이트를 크롤링하지 않도록 하세요. 하지만 강제로 차단되지는 않습니다. 이는 양 당사자가 준수해야 하는 합의일 뿐입니다.
巴扎黑2017-04-17 17:35:35
당신이 말하는 크롤러가 바이두 크롤러를 말하는 것인지, 아니면 저희가 직접 작성한 크롤러를 말하는 것인지는 모르겠습니다.
Baidu 크롤러는 위의 방법만 따르면 됩니다. 모든 클래스나 ID를 동적으로 생성하는 등 다른 사람의 크롤러를 방지하는 방법은 많습니다. 크롤러는 일반적으로 클래스나 ID를 통해 원하는 것을 얻기 위해 HTML을 구문 분석하기 때문입니다.
大家讲道理2017-04-17 17:35:35
어떤 파충류인지에 따라서도 다릅니다
신사형? 세밀화?
이 크롤러가 robots.txt 계약을 준수할 수 있다면 괜찮습니다
하지만 이건 신사의 계약일 뿐입니다
악당을 만나면 괜찮습니다
迷茫2017-04-17 17:35:35
1) JS용 gzip 압축을 시도할 수 있습니다. 많은 크롤러는 gzip으로 압축된 js를 크롤링하지 않습니다.
2) 로그를 사용하여 주요 리소스에 대한 악의적인 액세스인 경우 상대방 고정 IP이므로 상대방 IP를 차단해 볼 수 있습니다
天蓬老师2017-04-17 17:35:35
무슨 소용이 없나요? 일단 웹사이트가 사람들에게 공개되어 있다면, 내부 네트워크로 바꾸지 않는 한 자연스럽게 크롤러들에게 공개될 것입니다. 요즘에는 기밀정보 웹사이트가 다 돌아다닐 뿐 사용자 경험은 기본적으로 개선되지 않습니다.
巴扎黑2017-04-17 17:35:35
우선 위에서 언급한 내부 네트워크가 아닌 이상 크롤러가 100% 크롤링되는 것을 방지하기는 어렵습니다.
그러나 일부 기술이 부족한 크롤러가 귀하의 웹사이트를 크롤링하는 것을 방지하기 위해 몇 가지 조치를 취할 수 있습니다.
구체적인 조치를 보려면 Zhihu로 이동하여 이 기사를 읽으려면 여기를 클릭하세요
도움이 되셨으면 좋겠습니다