>  기사  >  백엔드 개발  >  좋은 웹 크롤러를 수행하는 방법은 무엇입니까?

좋은 웹 크롤러를 수행하는 방법은 무엇입니까?

PHP中文网
PHP中文网원래의
2017-06-20 16:23:321620검색

웹 크롤러의 본질은 실제로 인터넷에서 데이터를 "훔치는" 것입니다. 웹 크롤러를 통해 우리는 필요한 자원을 수집할 수 있지만 마찬가지로 부적절한 사용으로 인해 심각한 문제가 발생할 수도 있습니다.

그러므로 웹 크롤러를 사용할 때는 "올바른 방법으로 훔쳐야" 합니다.

웹 크롤러는 주로 다음 세 가지 범주로 나뉩니다.

1. 이러한 유형의 웹 크롤러에는 주로 요청 라이브러리를 사용하여 구현할 수 있습니다.

2. 중간 규모, 대규모 데이터 규모, 크롤링 속도에 민감한 이러한 유형의 웹 크롤러에는 주로 웹사이트 또는 일련의 웹사이트를 크롤링하는 데 사용됩니다. , 검색 엔진, 크롤링 속도가 핵심입니다. 현재로서는 주로 전체 네트워크를 크롤링하는 데 사용되는 맞춤형 개발이 필요하며 일반적으로 Baidu, Google 검색 등과 같은 전체 네트워크에 대한 검색 엔진을 구축합니다.

이 세 가지 유형 중 첫 번째 유형이 가장 일반적이며, 대부분 웹 페이지를 크롤링하는 소규모 크롤러입니다.

웹 크롤러에 대한 이의도 많습니다. 웹 크롤러는 지속적으로 서버에 요청을 보내 서버 성능에 영향을 미치고 서버를 괴롭히며 웹 사이트 관리자의 작업량을 증가시키기 때문입니다.

웹 크롤러는 서버를 괴롭히는 것 외에도 법적 위험을 초래할 수도 있습니다.

서버에 있는 데이터에는 재산권이 있으므로, 해당 데이터를 영리 목적으로 사용할 경우 법적 위험이 따릅니다. 또한 웹 크롤러로 인해 사용자 개인정보가 유출될 수도 있습니다.

요컨대, 웹 크롤러의 위험성은 주로 다음 세 가지에 기인합니다.

    서버의 성능 괴롭힘
  • 콘텐츠 수준의 법적 위험성
  • 개인정보 유출
  • 따라서 웹 크롤러를 사용하려면 특정 규칙이 필요합니다.

실제로 일부 대형 웹사이트에서는 웹 크롤러에 관련 제한을 두었고, 웹 크롤러 역시 인터넷 전체에서 표준화된 기능으로 간주됩니다.

일반 서버의 경우 웹 크롤러를 2가지 방법으로 제한할 수 있습니다. 1. 웹 사이트 소유자가 특정 기술적 능력을 갖춘 경우 소스 검토를 통해 웹 크롤러를 제한할 수 있습니다.

원본 리뷰는 일반적으로 User-Agent를 판단하여 제한됩니다. 이 글은 두 번째 유형에 중점을 둡니다.

2. 로봇 프로토콜을 사용하여 웹 크롤러에게 준수해야 할 규칙, 크롤링할 수 있는 규칙과 허용되지 않는 규칙을 알려주고 모든 크롤러가 이 프로토콜을 준수하도록 요구합니다.

두 번째 방법은 공지 형식으로 알리는 것입니다. 로봇 계약은 권장사항이지만 구속력은 없습니다. 웹 크롤러는 이를 따르지 않을 수 있지만 법적 위험이 있을 수 있습니다. 이 두 가지 방법을 통해 인터넷에서는 웹 크롤러에 대한 효과적인 도덕적, 기술적 제한이 형성됩니다.

그러면

웹 크롤러를 작성할 때 웹 사이트 관리자의 웹 사이트 리소스 관리를 존중해야 합니다.

인터넷의 일부 웹사이트에는 Robots 프로토콜이 없으며 모든 데이터를 크롤링할 수 있습니다. 그러나 대다수의 주류 웹사이트는 관련 제한 사항이 있는 Robots 프로토콜을 지원합니다. 로봇 프로토콜의

로봇 제외 표준(로봇 제외 표준, 웹 크롤러 제외 표준): 기능: 웹 사이트는 웹 크롤러에게 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려줍니다.

양식: 웹사이트 루트 디렉토리에 있는 robots.txt 파일.

로봇 프로토콜의 기본 구문: *는 모두를 나타내고 /는 루트 디렉터리를 나타냅니다.

예를 들어 PMCAFF의 로봇 프로토콜:

User-agent: *

Disallow: /article/edit

Disallow: /discuss/write

Disallow: /discuss/edit

첫 번째 줄의 User-agent:*는 모든 웹 크롤러가 다음 프로토콜을 준수해야 함을 의미합니다.

Disallow: 두 번째 줄의 /article/edit는 모든 웹 크롤러가 기사/편집에 액세스할 수 없음을 의미합니다. 아래 내용은 다른 내용과 동일합니다.

JD.com의 로봇 프로토콜을 관찰하면 User-agent: EtaoSpider, Disallow: /가 있음을 알 수 있습니다. 여기서 EtaoSpider는 악성 크롤러이며 JD.com의 어떤 리소스도 크롤링할 수 없습니다. EnUser-agent:*

Disallow: /?*

Disallow: /pop/*.html

disallow: /pinpai/ *.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

Disallow: /

User-agent: GwdangSpider

Disallow: /

사용자 에이전트: WochachaSpider

허용하지 않음: /

로봇 프로토콜을 사용하면 웹사이트의 콘텐츠를 규제하고 모든 웹 크롤러에게 크롤링할 수 있는 것과 허용되지 않는 것을 알릴 수 있습니다.

Robots 프로토콜은 루트 디렉터리에 존재한다는 점에 유의하는 것이 중요합니다. 루트 디렉터리마다 서로 다른 Robots 프로토콜이 있을 수 있으므로 크롤링할 때 더 주의를 기울여야 합니다.

위 내용은 좋은 웹 크롤러를 수행하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.