使用 JavaScript 从网站将数据抓取到 Google 表格
尝试从使用 JavaScript 的网站(例如提供的锦标赛软件 URL)导入数据时,Google 表格的内置 -由于内容的动态特性,像 IMPORTXML 和 IMPORTHTML 这样的函数经常会失败。
识别内容是否是动态的添加了
-
在 Chrome 中禁用 JavaScript: 按 Ctrl Shift P,输入 javascript,然后选择禁用 JavaScript。重新加载页面以检查所需内容是否仍然可见。如果是,则可以通过 Google Sheets 功能访问。
探索替代方法
由于网站内容是由 JavaScript 动态呈现的,您可以考虑使用网页抓取技术:
-
检查 robots.txt: 确定 Google 的服务器是否被阻止。如果是,您将遇到 #N/A 无法获取 URL 错误。
-
检查用户代理:验证网站在使用特定用户代理时不会返回自定义消息。
-
使用网页抓取工具:利用网页抓取软件或考虑使用带有 URL 获取服务的 Google Apps 脚本来绕过 JavaScript限制。
-
避免导入大型内容:请注意,Google 表格对导入内容有大小限制。
-
考虑使用带有 URL 提取服务的 Google Apps 脚本: 即使 JavaScript 是动态渲染的,此服务也使您能够发出编程请求并从网站检索数据内容。
相关资源
- [使用 Google Apps 脚本抓取动态网页](https://gsuitedevelopers.googleblog.com/2013/01/using- google-apps-script-to-scrape.html)
- [网页抓取工具/软件可用于免费?](https://webapps.stackexchange.com/questions/74794/web-scraping-tool-software-available-for-free)
以上是如何使用 JavaScript 将动态网站数据抓取到 Google Sheets 中?的详细内容。更多信息请关注PHP中文网其他相关文章!