>  기사  >  웹 프론트엔드  >  크롤러 프로토콜 로봇 소개

크롤러 프로토콜 로봇 소개

巴扎黑
巴扎黑원래의
2017-07-19 15:47:502597검색

이전 단어

로봇 프로토콜(크롤러 프로토콜, 로봇 프로토콜 등으로도 알려짐)의 전체 이름은 "로봇 제외 프로토콜"입니다. 웹사이트는 로봇 프로토콜을 사용하여 검색 엔진에 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려줍니다. 크롤링. 이 기사에서는 크롤러 프로토콜 로봇을 자세히 소개합니다

로봇 프로토콜의 전체 이름은 "로봇 제외 프로토콜"입니다. 해당 기능은 로봇 파일을 통해 검색 엔진에 크롤링할 수 있는 페이지와 크롤링할 수 없는 페이지를 알려주는 것입니다. . 이는 웹사이트의 루트 디렉토리에 텍스트 파일 형태로 배치되며 일반적인 텍스트 편집기를 사용하여 수정 및 편집할 수 있습니다. 웹마스터의 경우 robots.txt 파일을 올바르게 작성하면 검색 엔진을 보다 합리적으로 사용할 수 있고, 품질이 낮은 일부 페이지를 차단할 수 있으며, 웹 사이트의 품질과 검색 엔진에 대한 친숙성을 향상시킬 수 있습니다.

구체적인 작성 방법은 다음과 같습니다.

(*는 와일드카드 문자)


User-agent: *는 모든 검색 엔진 유형을 나타냅니다.

Disallow: /admin/ 여기서 정의는 크롤링을 금지하는 것입니다.

Disallow: /require/ 여기서 정의는 require 디렉터리 아래의 디렉터리를 크롤링하는 것을 금지하는 것입니다.

Disallow: /ABC/ 여기서 정의는 ABC 디렉터리 아래의 디렉터리를 크롤링하는 것을 금지하는 것입니다.

Disallow: / cgi-bin/*.htm 액세스 금지됨/ cgi-bin/ 디렉토리(하위 디렉토리 포함)에서 접미사 ".htm"이 있는 모든 URL.

Disallow: /*?* 웹사이트에서 물음표(?)가 포함된 모든 URL에 대한 액세스를 허용하지 않습니다.

Disallow: /.jpg$ 웹페이지에서 모든 .jpg 형식 이미지의 크롤링을 허용하지 않습니다.

Disallow:/ab/adc. html 허용되지 않음 ab 폴더 아래의 adc.html 파일을 크롤링합니다.

Allow: /cgi-bin/ 여기서 정의는 cgi-bin 디렉터리 아래 디렉터리의 크롤링을 허용하는 것입니다.

Allow: /tmp 여기서 정의는 tmp의 전체 디렉터리에 대한 크롤링을 허용하는 것입니다.

Allow: .htm$ URL의 접미사인 ".htm"에 대한 액세스만 허용합니다.

Allow: .gif$를 사용하면 웹 페이지 및 gif 형식 이미지를 크롤링할 수 있습니다.

사이트맵: 사이트맵은 크롤러에게 이 페이지가 사이트맵임을 알려줍니다.

Overview

 robots.txt 파일은 텍스트 파일로, 검색 엔진의 웹사이트 가장 먼저 볼 파일입니다. robots.txt 파일은 서버에서 볼 수 있는 파일을 스파이더에게 알려줍니다. 검색 스파이더는 사이트를 방문할 때 먼저 사이트의 루트 디렉터리에 robots.txt가 있는지 확인합니다. 파일 내용에 따라 액세스 범위를 결정합니다. 파일이 존재하지 않으면 모든 검색 스파이더가 비밀번호로 보호되지 않은 웹사이트의 모든 페이지에 액세스할 수 있습니다.

[원리]

로봇 프로토콜은 국제 인터넷 커뮤니티의 공통 도덕 규범은 다음과 같은 원칙에 따라 제정되었습니다:

 1. 검색 기술은 정보 제공자의 의사를 존중하고 개인 정보 보호 권리를 유지하면서 인간에게 봉사해야 합니다. 사용자의 개인정보 및 사생활 침해

  [참고] robots.txt는 사이트의 루트 디렉터리에 있어야 하며, 파일 이름은 모두 소문자

Writing

【User-agent】

  아래 코드에서 *로 표시되는 모든 검색 엔진 유형, *는 모든 검색 로봇을 나타내는 와일드카드 문자입니다.

User-agent: *

 다음 코드는 바이두의 검색 로봇을 나타냅니다.

User-agent: Baiduspider
【Disallow】

  다음 코드는 다음을 나타냅니다. admin 디렉터리 아래의 디렉터리를 크롤링하는 것이 금지되어 있습니다
Disallow: /admin/

 코드는 웹페이지에서 모든 .jpg 형식의 사진을 크롤링하는 것이 금지되어 있음을 나타냅니다.

Disallow: /.jpg$
 다음 코드는 ab 폴더에 있는 adc.html 파일

Disallow:/ab/adc.html
 다음 코드는 물음표(?) URL이 포함된 모든 파일에 접근할 수 있음을 나타냅니다. URL

Disallow: /*?*
아래 코드는 웹사이트의 모든 페이지에 접근이 금지됨을 나타냅니다

Disallow: /
【Allow】

아래 코드는 접미사가 ".html"인 URL에 대한 액세스가 허용됨을 나타냅니다.
Allow: .html$

아래 코드는 권한을 나타냅니다. tmp 디렉토리 전체 크롤링

Allow: /tmp

Usage
다음 코드는 모든 로봇이 웹사이트의 모든 페이지에 접근할 수 있다는 것을 의미합니다.

User-agent: *Allow: /

다음 코드는 모든 검색 엔진이 웹사이트의 어떤 부분에도 접근할 수 없다는 것을 의미합니다.

User-agent: *Disallow: /
다음 코드는 Baidu가 로봇은 해당 웹사이트의 모든 디렉터리에 액세스할 수 없습니다

User-agent: Baiduspider
Disallow: /
다음 코드는 모든 검색 엔진이 웹사이트의 cgi-bin, tmp 및 ~joe

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~joe/
세 디렉터리에 있는 파일에 액세스할 수 없음을 의미합니다.

Myth

 【신화 1】: 웹사이트의 모든 파일은 스파이더에 의해 크롤링되어야 하므로 robots.txt 파일을 추가할 필요가 없습니다. 어쨌든 파일이 존재하지 않으면 모든 검색 스파이더는 기본적으로 비밀번호로 보호되지 않는 웹사이트의 모든 페이지에 액세스할 수 있습니다

사용자가 존재하지 않는 URL에 액세스하려고 시도할 때마다 서버는 404 오류를 기록합니다. (로그 문서에서 찾을 수 없음). 검색 스파이더가 존재하지 않는 robots.txt 파일을 찾을 때마다 서버도 로그에 404 오류를 기록하므로 웹사이트에 robots.txt를 추가해야 합니다

 【오해 2】: 로봇에. txt 파일 검색 스파이더가 모든 파일을 크롤링하도록 설정하면 웹 사이트의 포함률이 높아질 수 있습니다

웹 사이트의 프로그램 스크립트, 스타일 시트 및 기타 파일이 스파이더에 포함되어 있어도 웹 사이트의 포함률은 증가하지 않으며, 서버 리소스만 낭비됩니다. 따라서 검색 스파이더가 이러한 파일을 색인화하는 것을 허용하지 않도록 robots.txt 파일에 이를 설정해야 합니다

위 내용은 크롤러 프로토콜 로봇 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
이전 기사:수학,숫자다음 기사:수학,숫자