지금까지 Googlebot과 같은 검색 엔진 크롤러는 정적 HTML 소스 코드만 읽을 수 있었고 JavaScript를 사용하여 동적으로 작성된 자료를 스캔하고 색인을 생성할 수 없었습니다. 그러나 Angular, React, Vue.JS와 같은 JavaScript가 풍부한 웹사이트와 프레임워크는 물론 단일 페이지 애플리케이션(SPA) 및 프로그레시브 웹 애플리케이션(PWA)이 등장하면서 이러한 상황이 바뀌었습니다. 웹페이지를 색인화하기 전에 올바르게 표시하기 위해 Google은 이전 AJAX 크롤링 기술을 수정하고 중단했습니다. Google은 일반적으로 대부분의 JavaScript 정보를 크롤링하고 색인을 생성할 수 있지만 JavaScript는 "처리하기 어렵고 모든 검색 엔진 크롤러가 이를 정확하거나 빠르게 처리할 수 있는 것은 아니기 때문에" 클라이언트 측 솔루션을 사용하지 않는 것이 좋습니다.
Google Fetch란 무엇인가요?각 검색 엔진에는 고유한 크롤러 컬렉션이 있습니다. Google에는 15가지가 넘는 다양한 유형의 크롤러가 있으며 그 중 Googlebot이 주요 크롤러입니다. Googlebot은 크롤링과 색인 생성을 수행하므로 해당 작업을 더 자세히 살펴보겠습니다.
Google 크롤러는 어떻게 작동하나요?
새 웹사이트를 찾은 후 Googlebot은 모든 HTML, 타사 코드, JavaScript 및 CSS를 로드하여 브라우저에서 사이트를 렌더링(또는 '시각화')합니다. 검색 엔진은 데이터베이스에 저장된 이 데이터를 사용하여 페이지를 색인화하고 순위를 매깁니다. 해당 페이지는 색인이 생성된 경우 추가로 매우 큰 Google 데이터베이스인 Google 색인에 추가됩니다.
JavaScript 및 HTML 렌더링
자바스크립트 렌더링과 관련하여 언어가 빠르게 발전하고 있으며 Googlebot이 때때로 최신 버전 지원을 중단할 수 있다는 점을 염두에 두시기 바랍니다. 사이트가 표시되지 않도록 하려면 JavaScript가 Googlebot과 호환되는지 확인하세요. 잘못. JavaScript가 빠르게 로드되는지 확인하세요. Googlebot은 로드하는 데 5초 이상 걸리는 스크립트 생성 자료를 렌더링하고 색인을 생성하지 않습니다.
스크래핑을 위해 JavaScript를 언제 사용해야 합니까?
각 웹페이지를 표시하고 백그라운드의 헤드리스 브라우저에서 DOM을 구축하려면 모든 리소스(JavaScript, CSS 및 이미지 포함)를 선택적으로 크롤링해야 합니다. JavaScript 크롤링은 느리고 노동 집약적입니다.
이는 소규모 사이트에서는 문제가 되지 않지만 수백 또는 수백만 페이지가 있는 대규모 사이트에는 상당한 영향을 미칠 수 있습니다. 귀하의 웹 사이트가 웹 페이지를 동적으로 변경하기 위해 JavaScript에 크게 의존하지 않는다면 시간이나 리소스를 소비할 필요가 없습니다.
DOM(동적 콘텐츠)이 포함된 JavaScript 및 웹페이지를 처리할 때 크롤러는 문서 개체 모델을 읽고 평가해야 합니다. 모든 코드가 로드되고 처리된 후에는 해당 웹 사이트의 완전히 표시되는 버전도 생성되어야 합니다. 브라우저는 표시된 웹 페이지를 볼 수 있는 가장 쉬운 도구입니다. 이러한 이유로 JavaScript 크롤링은 때때로 "헤드리스 브라우저"를 사용하는 것으로 설명됩니다.
결론
위 내용은 Google에서는 본문 콘텐츠가 포함된 JavaScript를 크롤링합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!