robots.txt는 검색 엔진이 웹 사이트를 방문할 때 가장 먼저 확인하는 파일입니다. 검색 엔진이 웹 사이트 콘텐츠를 크롤링하는 범위를 지정하는 데 사용되는 텍스트 파일입니다. 검색 스파이더는 사이트를 방문할 때 먼저 사이트의 루트 디렉터리에 robots.txt가 있는지 확인하고, 존재하는 경우 파일의 콘텐츠를 기반으로 방문 범위를 결정합니다.
웹사이트 구축 과정에서 검색 엔진에 의해 크롤링되거나 원하지 않는 콘텐츠가 일부 포함됩니다. 인터넷에 나타나게 하려면 어떻게 해야 할까요? 검색 엔진이 내 xx 콘텐츠를 크롤링하지 않도록 하려면 어떻게 해야 하나요? 로봇이 유용한 곳입니다.
robots.txt는 검색 엔진이 웹 사이트를 방문할 때 가장 먼저 보는 파일입니다. Robots.txt 파일은 서버에서 볼 수 있는 파일을 스파이더에게 알려줍니다.
검색 스파이더는 사이트를 방문할 때 먼저 사이트의 루트 디렉터리에 robots.txt가 있는지 확인합니다. 존재하는 경우 검색 로봇은 이를 기반으로 방문 범위를 결정합니다. ; 이 파일이 존재하지 않으면 모든 검색 스파이더는 비밀번호로 보호되지 않은 웹사이트의 모든 페이지에 접근할 수 있습니다.
구문: 가장 간단한 robots.txt 파일은 두 가지 규칙을 사용합니다.
• 사용자 에이전트: 다음 규칙이 적용되는 로봇
• 허용하지 않음: 웹 페이지가 차단됨
그러나 몇 가지 사항에 주의해야 합니다.
1.robots.txt를 저장해야 합니다. 웹사이트 루트 디렉토리에
2. 이름은 robots.txt 이어야 하며, 파일명은 모두 소문자여야 합니다.
3.Robots.txt는 검색 엔진이 웹사이트를 방문하는 첫 번째 페이지입니다
4.Robots.txt는 user-agent
# 🎜🎜#robots.txt 사용에 대한 오해
오해 1: 내 웹사이트의 모든 파일은 스파이더에 의해 크롤링되어야 하므로 robots.txt 파일을 추가할 필요가 없습니다. . 어쨌든 파일이 존재하지 않으면 모든 검색 스파이더는 기본적으로 비밀번호로 보호되지 않는 웹사이트의 모든 페이지에 액세스할 수 있습니다. 사용자가 존재하지 않는 URL에 액세스하려고 시도할 때마다 서버는 로그에 404 오류(파일을 찾을 수 없음)를 기록합니다. 검색 스파이더가 존재하지 않는 robots.txt 파일을 찾을 때마다 서버도 로그에 404 오류를 기록하므로 웹사이트에 robots.txt를 추가해야 합니다. 오해 2: robots.txt 파일의 모든 파일을 검색 스파이더가 크롤링하도록 설정하면 웹사이트의 포함률이 높아질 수 있습니다. 웹사이트에 있는 프로그램 스크립트, 스타일시트, 기타 파일이 스파이더에 의해 포함되어도 웹사이트의 포함률은 높아지지 않으며 서버 리소스만 낭비됩니다. 따라서 검색 스파이더가 이러한 파일을 색인화하는 것을 허용하지 않도록 robots.txt 파일에서 이를 설정해야 합니다. 제외해야 하는 특정 파일은 Robots.txt 사용에 대한 팁 문서에 자세히 설명되어 있습니다. 오해 3: 검색 스파이더는 웹 페이지를 크롤링할 때 서버 리소스를 낭비합니다. robots.txt 파일에 설정된 모든 검색 스파이더는 모든 웹 페이지를 크롤링할 수 없습니다. 이 경우 전체 웹사이트가 검색 엔진에 의해 색인화되지 않습니다.robots.txt 사용 팁
1. 사용자가 존재하지 않는 URL에 액세스하려고 할 때마다 서버는 이를 로그 404 오류(파일을 찾을 수 없습니다). 검색 스파이더가 존재하지 않는 robots.txt 파일을 찾을 때마다 서버는 로그에 404 오류도 기록하므로 웹사이트에 robots.txt를 추가해야 합니다. 2. 웹사이트 관리자는 서버 성능을 보장하기 위해 특정 서버의 디렉터리에서 스파이더 프로그램을 멀리해야 합니다. 예: 대부분의 웹사이트 서버에는 "cgi-bin" 디렉터리에 프로그램이 저장되어 있으므로 robots.txt 파일에 "Disallow: /cgi-bin"을 추가하여 모든 프로그램 파일이 스파이더에 의해 색인화되는 것을 방지하는 것이 좋습니다. .서버 자원을 절약할 수 있습니다. 스파이더가 크롤링할 필요가 없는 일반 웹사이트의 파일에는 배경 관리 파일, 프로그램 스크립트, 첨부 파일, 데이터베이스 파일, 인코딩 파일, 스타일 시트 파일, 템플릿 파일, 탐색 그림 및 배경 그림 등이 포함됩니다. 다음은 VeryCMS의 robots.txt 파일입니다. User-agent: * 허용하지 않음: /admin/ 백그라운드 관리 파일#🎜 🎜 #허용하지 않음: /require/ 프로그램 파일
허용하지 않음: /attachment/ 첨부 파일
허용하지 않음: /images/ Picture
허용하지 않음 : /data/ 데이터베이스 파일
허용하지 않음: /template/ 템플릿 파일
허용하지 않음: /css/ 스타일 시트 파일
허용하지 않음: /lang/ 인코딩 파일
허용하지 않음: /script/ 스크립트 파일
3. 웹 사이트가 동적 웹 페이지이고 검색 스파이더가 다음을 수행할 수 있도록 이러한 동적 웹 페이지의 정적 복사본을 만드는 경우 업데이트 잡기 쉽습니다. 그런 다음 동적 웹 페이지가 스파이더에 의해 색인화되는 것을 방지하여 이러한 웹 페이지가 중복 콘텐츠를 포함하는 것으로 간주되지 않도록 robots.txt 파일에 설정을 지정해야 합니다.
4. 사이트맵 파일에 대한 링크는 robots.txt 파일에 직접 포함될 수도 있습니다. 좋아요:
사이트맵: http://www.***.com/sitemap.xml
현재 이를 지원하는 검색 엔진 회사로는 Google, Yahoo, Ask 및 MSN이 있습니다. 중국 검색 엔진 회사는 분명히 이 그룹에 속하지 않습니다. 이것의 장점은 웹마스터가 자신의 사이트맵 파일을 제출하기 위해 각 검색 엔진의 웹마스터 도구나 유사한 웹마스터 섹션으로 이동할 필요가 없다는 것입니다. 검색 엔진 스파이더는 robots.txt 파일을 크롤링하고 그 안에 있는 콘텐츠를 읽습니다. 사이트맵 경로를 선택한 다음 링크된 웹페이지를 크롤링합니다.
5. robots.txt 파일을 올바르게 사용하면 액세스 중 오류를 피할 수도 있습니다. 예를 들어 검색자가 장바구니 페이지로 직접 이동하도록 할 수는 없습니다. 장바구니가 포함될 이유가 없으므로 robots.txt 파일에 설정하여 검색자가 장바구니 페이지로 직접 진입하는 것을 방지할 수 있습니다
위 내용은 robots.txt란 무엇인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!