Google 是否会抓取包含正文内容的 JavaScript-js教程-PHP中文网

首页

web前端

js教程

Google 是否会抓取包含正文内容的 JavaScript

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 25, 2023 pm 02:33 PM

Google 是否会抓取包含正文内容的 JavaScript

从历史上看，像 Googlebot 这样的搜索引擎爬虫只能读取静态 HTML 源代码，而无法扫描和索引使用 JavaScript 动态编写的材料。不过，随着富含 JavaScript 的网站和框架（如 Angular、React 和 Vue.JS）以及单页应用程序 (SPA) 和渐进式 Web 应用程序 (PWA) 的兴起，这种情况发生了变化。为了在对网页建立索引之前正确显示网页，Google 修改并停止了之前的 AJAX 抓取技术。尽管 Google 通常可以抓取大多数 JavaScript 信息并将其编入索引，但他们建议不要使用客户端解决方案，因为 JavaScript“难以处理，并且并非所有搜索引擎抓取工具都可以正确或迅速地处理它。”

什么是 Google 抓取？

Google 和其他搜索引擎使用称为 Google 爬虫（也称为搜索机器人或蜘蛛）的软件扫描网络。换句话说，它在互联网上从一个页面“爬行”到另一个网站，寻找 Google 数据库中尚未包含的新鲜或更新的内容。

每个搜索引擎都有一个独特的爬虫集合。对于 Google，有超过 15 种不同类型的爬虫程序，其中 Googlebot 是主要的爬虫程序。由于 Googlebot 会进行抓取和索引，因此我们将更详细地检查其操作。

Google 抓取工具如何运作？

没有任何搜索引擎（包括 Google）会维护 URL 的中央寄存器，并且每次创建新页面时都会更新该 URL。这意味着谷歌必须在互联网上搜索新页面，而不是自动“提醒”它们。 Googlebot 不断地在互联网上徘徊，寻找新的网页添加到 Google 现有网页的库存中。

找到新网站后，Googlebot 会通过加载所有 HTML、第三方代码、JavaScript 和 CSS 在浏览器中呈现（或“可视化”）该网站。搜索引擎使用保存在数据库中的这些数据来对页面进行索引和排名。页面将添加到 Google 索引中，如果已编入索引，则这是一个额外的非常大的 Google 数据库。

JavaScript 和 HTML 渲染

冗长的代码可能很难让 Googlebot 处理和呈现。如果代码不整洁，爬虫可能无法正确呈现您的网站，在这种情况下，它将被视为空的。

关于 JavaScript 渲染，请记住，该语言正在快速发展，Googlebot 有时可能会停止支持最新版本。确保您的 JavaScript 与 Googlebot 兼容，以避免显示您的网站错误地。确保 JavaScript 快速加载。如果加载时间超过五秒，Googlebot 将不会呈现脚本生成的材料并对其建立索引。

何时使用 JavaScript 进行抓取？

我们仍然建议在首次分析网站以查找 JavaScript 时有选择地使用 JavaScript 抓取，尽管 Google 通常会呈现每个页面。 JavaScript 用于利用已知的客户端依赖项进行审核以及在大型站点的部署过程中。

必须选择性地爬取所有资源（包括 JavaScript、CSS 和图片），才能在后台的无头浏览器中显示每个网页并构建 DOM。 JavaScript 爬行速度较慢且更加耗费人力。

虽然这对于较小的网站来说不是问题，但它可能会对拥有数百甚至数百万页面的大型网站产生重大影响。如果您的网站不严重依赖 JavaScript 来动态更改网页，则无需花费时间或资源。

在处理 JavaScript 和具有动态内容 (DOM) 的网页时，爬虫必须读取和评估文档对象模型。在加载和处理所有代码之后，还必须生成此类网站的完整显示版本。浏览器是我们查看显示的网页最简单的工具。因此，爬行 JavaScript 有时被描述为使用“无头浏览器”。

结论

未来几年将会有更多的 JavaScript，因为它会一直存在。只要在创建网站架构时尽早与 SEO 进行讨论，JavaScript 就可以与 SEO 和爬虫和平共处。爬虫仍然只是实际搜索引擎机器人行为的复制品。除了 JavaScript 抓取工具之外，我们强烈建议使用日志文件分析、Google 的 URL 检查工具或适合移动设备的测试工具来了解 Google 可以抓取、呈现和编制索引的内容。

以上是Google 是否会抓取包含正文内容的 JavaScript的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：tutorialspoint。如有侵权，请联系admin@php.cn删除

超越浏览器：现实世界中的JavaScriptApr 12, 2025 am 12:06 AM

JavaScript在现实世界中的应用包括服务器端编程、移动应用开发和物联网控制：1.通过Node.js实现服务器端编程，适用于高并发请求处理。2.通过ReactNative进行移动应用开发，支持跨平台部署。3.通过Johnny-Five库用于物联网设备控制，适用于硬件交互。

使用Next.js（后端集成）构建多租户SaaS应用程序Apr 11, 2025 am 08:23 AM

我使用您的日常技术工具构建了功能性的多租户SaaS应用程序（一个Edtech应用程序），您可以做同样的事情。首先，什么是多租户SaaS应用程序？多租户SaaS应用程序可让您从唱歌中为多个客户提供服务

如何使用Next.js（前端集成）构建多租户SaaS应用程序Apr 11, 2025 am 08:22 AM

本文展示了与许可证确保的后端的前端集成，并使用Next.js构建功能性Edtech SaaS应用程序。前端获取用户权限以控制UI的可见性并确保API要求遵守角色库

JavaScript：探索网络语言的多功能性Apr 11, 2025 am 12:01 AM

JavaScript是现代Web开发的核心语言，因其多样性和灵活性而广泛应用。1)前端开发：通过DOM操作和现代框架（如React、Vue.js、Angular）构建动态网页和单页面应用。2)服务器端开发：Node.js利用非阻塞I/O模型处理高并发和实时应用。3)移动和桌面应用开发：通过ReactNative和Electron实现跨平台开发，提高开发效率。

JavaScript的演变：当前的趋势和未来前景Apr 10, 2025 am 09:33 AM

JavaScript的最新趋势包括TypeScript的崛起、现代框架和库的流行以及WebAssembly的应用。未来前景涵盖更强大的类型系统、服务器端JavaScript的发展、人工智能和机器学习的扩展以及物联网和边缘计算的潜力。

神秘的JavaScript：它的作用以及为什么重要Apr 09, 2025 am 12:07 AM

JavaScript是现代Web开发的基石，它的主要功能包括事件驱动编程、动态内容生成和异步编程。1)事件驱动编程允许网页根据用户操作动态变化。2)动态内容生成使得页面内容可以根据条件调整。3)异步编程确保用户界面不被阻塞。JavaScript广泛应用于网页交互、单页面应用和服务器端开发，极大地提升了用户体验和跨平台开发的灵活性。