웹 크롤러의 본질은 실제로 인터넷에서 데이터를 "훔치는" 것입니다. 웹 크롤러를 통해 우리는 필요한 자원을 수집할 수 있지만 마찬가지로 부적절한 사용으로 인해 심각한 문제가 발생할 수도 있습니다.
그러므로 웹 크롤러를 사용할 때는 "올바른 방법으로 훔쳐야" 합니다.
웹 크롤러는 주로 다음 세 가지 범주로 나뉩니다.
1. 이러한 유형의 웹 크롤러에는 주로 요청 라이브러리를 사용하여 구현할 수 있습니다.
2. 중간 규모, 대규모 데이터 규모, 크롤링 속도에 민감한 이러한 유형의 웹 크롤러에는 주로 웹사이트 또는 일련의 웹사이트를 크롤링하는 데 사용됩니다. , 검색 엔진, 크롤링 속도가 핵심입니다. 현재로서는 주로 전체 네트워크를 크롤링하는 데 사용되는 맞춤형 개발이 필요하며 일반적으로 Baidu, Google 검색 등과 같은 전체 네트워크에 대한 검색 엔진을 구축합니다.
이 세 가지 유형 중 첫 번째 유형이 가장 일반적이며, 대부분 웹 페이지를 크롤링하는 소규모 크롤러입니다.
웹 크롤러에 대한 이의도 많습니다. 웹 크롤러는 지속적으로 서버에 요청을 보내 서버 성능에 영향을 미치고 서버를 괴롭히며 웹 사이트 관리자의 작업량을 증가시키기 때문입니다.
웹 크롤러는 서버를 괴롭히는 것 외에도 법적 위험을 초래할 수도 있습니다.서버에 있는 데이터에는 재산권이 있으므로, 해당 데이터를 영리 목적으로 사용할 경우 법적 위험이 따릅니다. 또한 웹 크롤러로 인해 사용자 개인정보가 유출될 수도 있습니다.
요컨대, 웹 크롤러의 위험성은 주로 다음 세 가지에 기인합니다.
실제로 일부 대형 웹사이트에서는 웹 크롤러에 관련 제한을 두었고, 웹 크롤러 역시 인터넷 전체에서 표준화된 기능으로 간주됩니다.
일반 서버의 경우 웹 크롤러를 2가지 방법으로 제한할 수 있습니다. 1. 웹 사이트 소유자가 특정 기술적 능력을 갖춘 경우 소스 검토를 통해 웹 크롤러를 제한할 수 있습니다.
원본 리뷰는 일반적으로 User-Agent를 판단하여 제한됩니다. 이 글은 두 번째 유형에 중점을 둡니다.
2. 로봇 프로토콜을 사용하여 웹 크롤러에게 준수해야 할 규칙, 크롤링할 수 있는 규칙과 허용되지 않는 규칙을 알려주고 모든 크롤러가 이 프로토콜을 준수하도록 요구합니다.
두 번째 방법은 공지 형식으로 알리는 것입니다. 로봇 계약은 권장사항이지만 구속력은 없습니다. 웹 크롤러는 이를 따르지 않을 수 있지만 법적 위험이 있을 수 있습니다. 이 두 가지 방법을 통해 인터넷에서는 웹 크롤러에 대한 효과적인 도덕적, 기술적 제한이 형성됩니다.
그러면
웹 크롤러를 작성할 때 웹 사이트 관리자의 웹 사이트 리소스 관리를 존중해야 합니다.인터넷의 일부 웹사이트에는 Robots 프로토콜이 없으며 모든 데이터를 크롤링할 수 있습니다. 그러나 대다수의 주류 웹사이트는 관련 제한 사항이 있는 Robots 프로토콜을 지원합니다. 로봇 프로토콜의
로봇 제외 표준(로봇 제외 표준, 웹 크롤러 제외 표준): 기능: 웹 사이트는 웹 크롤러에게 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려줍니다.
양식: 웹사이트 루트 디렉토리에 있는 robots.txt 파일.
로봇 프로토콜의 기본 구문: *는 모두를 나타내고 /는 루트 디렉터리를 나타냅니다.
예를 들어 PMCAFF의 로봇 프로토콜:
User-agent: *Disallow: /article/edit
Disallow: /discuss/write
Disallow: /discuss/edit
첫 번째 줄의 User-agent:*는 모든 웹 크롤러가 다음 프로토콜을 준수해야 함을 의미합니다.
Disallow: 두 번째 줄의 /article/edit는 모든 웹 크롤러가 기사/편집에 액세스할 수 없음을 의미합니다. 아래 내용은 다른 내용과 동일합니다.
JD.com의 로봇 프로토콜을 관찰하면 User-agent: EtaoSpider, Disallow: /가 있음을 알 수 있습니다. 여기서 EtaoSpider는 악성 크롤러이며 JD.com의 어떤 리소스도 크롤링할 수 없습니다. EnUser-agent:*
Disallow: /?*Disallow: /pop/*.html
disallow: /pinpai/ *.html?*
User-agent: EtaoSpider
Disallow: /
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
사용자 에이전트: WochachaSpider
허용하지 않음: /
로봇 프로토콜을 사용하면 웹사이트의 콘텐츠를 규제하고 모든 웹 크롤러에게 크롤링할 수 있는 것과 허용되지 않는 것을 알릴 수 있습니다.
Robots 프로토콜은 루트 디렉터리에 존재한다는 점에 유의하는 것이 중요합니다. 루트 디렉터리마다 서로 다른 Robots 프로토콜이 있을 수 있으므로 크롤링할 때 더 주의를 기울여야 합니다.
위 내용은 좋은 웹 크롤러를 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!