从使用 JavaScript 的网站将数据抓取到 Google 表格
挑战:
使用 Google Sheets 内置函数(如 IMPORTXML 和)从动态网站导入数据IMPORTHTML 失败,因为这些函数依赖于页面内的静态内容。
它不起作用的原因:
您尝试抓取的网站使用 JavaScript,它会动态生成内容加载后的页面上。这意味着您要导入的数据最初并不存在于源代码中,导致函数无法访问它。
解决方案:
有多种方法可以克服此限制并从使用 JavaScript 的网站中抓取数据:
-
开发人员工具: 使用浏览器中的开发人员工具来确定数据是否是动态添加的。禁用 JavaScript 并重新加载页面以查看数据是否可见。如果确实如此,则可以使用 Google Sheets 功能来抓取它。
-
检查源代码:检查网页的 HTML/XML 源代码中是否有任何嵌入内容,例如包含数据的 JavaScript 对象或 URL。然后,您可以在 Google Apps 脚本中使用 IMPORTJSON、IMPORTDATA 或 URL Fetch Service 来检索和解析此数据。
-
使用专用工具:考虑使用专用的网页抓取工具或可以处理的库动态内容并绕过客户端限制。
其他注意事项:
- 采取预防措施以避免违反网站的服务条款或 robots.txt 规则。
- 了解网站或 API 施加的任何速率限制或限制.
以上是如何将大量 JavaScript 网站中的数据抓取到 Google 表格中?的详细内容。更多信息请关注PHP中文网其他相关文章!