>웹 프론트엔드 >JS 튜토리얼 >Google에서는 본문 콘텐츠가 포함된 JavaScript를 크롤링합니까?

Google에서는 본문 콘텐츠가 포함된 JavaScript를 크롤링합니까?

WBOY
WBOY앞으로
2023-08-25 14:33:12837검색

Google 是否会抓取包含正文内容的 JavaScript

지금까지 Googlebot과 같은 검색 엔진 크롤러는 정적 HTML 소스 코드만 읽을 수 있었고 JavaScript를 사용하여 동적으로 작성된 자료를 스캔하고 색인을 생성할 수 없었습니다. 그러나 Angular, React, Vue.JS와 같은 JavaScript가 풍부한 웹사이트와 프레임워크는 물론 단일 페이지 애플리케이션(SPA) 및 프로그레시브 웹 애플리케이션(PWA)이 등장하면서 이러한 상황이 바뀌었습니다. 웹페이지를 색인화하기 전에 올바르게 표시하기 위해 Google은 이전 AJAX 크롤링 기술을 수정하고 중단했습니다. Google은 일반적으로 대부분의 JavaScript 정보를 크롤링하고 색인을 생성할 수 있지만 JavaScript는 "처리하기 어렵고 모든 검색 엔진 크롤러가 이를 정확하거나 빠르게 처리할 수 있는 것은 아니기 때문에" 클라이언트 측 솔루션을 사용하지 않는 것이 좋습니다.

Google Fetch란 무엇인가요?

Google 및 기타 검색 엔진은 Google 크롤러(검색 봇 또는 스파이더라고도 함)라는 소프트웨어를 사용하여 웹을 검색합니다. 즉, 인터넷을 페이지에서 웹사이트로 "크롤링"하여 아직 Google 데이터베이스에 없는 새로운 콘텐츠나 업데이트된 콘텐츠를 찾습니다.

각 검색 엔진에는 고유한 크롤러 컬렉션이 있습니다. Google에는 15가지가 넘는 다양한 유형의 크롤러가 있으며 그 중 Googlebot이 주요 크롤러입니다. Googlebot은 크롤링과 색인 생성을 수행하므로 해당 작업을 더 자세히 살펴보겠습니다.

Google 크롤러는 어떻게 작동하나요?

Google을 포함한 어떤 검색 엔진도 URL의 중앙 등록을 유지하고 새 페이지가 생성될 때마다 URL을 업데이트하지 않습니다. 이는 Google이 자동으로 "경고"하는 대신 인터넷에서 새 페이지를 검색해야 함을 의미합니다. Googlebot은 끊임없이 인터넷을 돌아다니며 Google의 기존 웹페이지 목록에 추가할 새 웹페이지를 찾고 있습니다.

새 웹사이트를 찾은 후 Googlebot은 모든 HTML, 타사 코드, JavaScript 및 CSS를 로드하여 브라우저에서 사이트를 렌더링(또는 '시각화')합니다. 검색 엔진은 데이터베이스에 저장된 이 데이터를 사용하여 페이지를 색인화하고 순위를 매깁니다. 해당 페이지는 색인이 생성된 경우 추가로 매우 큰 Google 데이터베이스인 Google 색인에 추가됩니다.

JavaScript 및 HTML 렌더링

장시간의 코드는 Googlebot이 처리하고 렌더링하기 어려울 수 있습니다. 코드가 깨끗하지 않으면 크롤러가 사이트를 올바르게 렌더링하지 못할 수 있으며, 이 경우 사이트는 비어 있는 것으로 처리됩니다.

자바스크립트 렌더링과 관련하여 언어가 빠르게 발전하고 있으며 Googlebot이 때때로 최신 버전 지원을 중단할 수 있다는 점을 염두에 두시기 바랍니다. 사이트가 표시되지 않도록 하려면 JavaScript가 Googlebot과 호환되는지 확인하세요. 잘못. JavaScript가 빠르게 로드되는지 확인하세요. Googlebot은 로드하는 데 5초 이상 걸리는 스크립트 생성 자료를 렌더링하고 색인을 생성하지 않습니다.

스크래핑을 위해 JavaScript를 언제 사용해야 합니까?

Google은 일반적으로 모든 페이지를 렌더링하지만 사이트에서 JavaScript를 처음 분석할 때 선택적으로 JavaScript 크롤링을 사용하는 것이 좋습니다. JavaScript는 감사 및 대규모 사이트 배포 중에 알려진 클라이언트 측 종속성을 활용하는 데 사용됩니다.

각 웹페이지를 표시하고 백그라운드의 헤드리스 브라우저에서 DOM을 구축하려면 모든 리소스(JavaScript, CSS 및 이미지 포함)를 선택적으로 크롤링해야 합니다. JavaScript 크롤링은 느리고 노동 집약적입니다.

이는 소규모 사이트에서는 문제가 되지 않지만 수백 또는 수백만 페이지가 있는 대규모 사이트에는 상당한 영향을 미칠 수 있습니다. 귀하의 웹 사이트가 웹 페이지를 동적으로 변경하기 위해 JavaScript에 크게 의존하지 않는다면 시간이나 리소스를 소비할 필요가 없습니다.

DOM(동적 콘텐츠)이 포함된 JavaScript 및 웹페이지를 처리할 때 크롤러는 문서 개체 모델을 읽고 평가해야 합니다. 모든 코드가 로드되고 처리된 후에는 해당 웹 사이트의 완전히 표시되는 버전도 생성되어야 합니다. 브라우저는 표시된 웹 페이지를 볼 수 있는 가장 쉬운 도구입니다. 이러한 이유로 JavaScript 크롤링은 때때로 "헤드리스 브라우저"를 사용하는 것으로 설명됩니다.

결론

JavaScript는 계속 유지되므로 향후 몇 년 동안 더 많은 JavaScript가 제공될 것입니다. JavaScript는 웹 사이트 아키텍처를 만들 때 초기에 SEO와 논의하는 한 SEO 및 크롤러와 평화롭게 공존할 수 있습니다. 크롤러는 여전히 실제 검색 엔진 봇의 동작을 복제한 것일 뿐입니다. 자바스크립트 크롤러 외에도 로그 파일 분석, Google의 URL 검사 도구 또는 모바일 친화적인 테스트 도구를 사용하여 Google이 크롤링, 렌더링 및 색인을 생성할 수 있는 항목을 이해하는 것이 좋습니다.

위 내용은 Google에서는 본문 콘텐츠가 포함된 JavaScript를 크롤링합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 tutorialspoint.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제