高效抓取 JavaScript 网站-java教程-PHP中文网

首页

Java

java教程

高效抓取 JavaScript 网站

Linda Hamilton

Nov 20, 2024 am 01:12 AM

Effizientes Scrapen von JavaScript-Webseiten

使用 JavaScript 进行网络爬行的可能性

静态网站：Axios 和 Cheerio
让我们逐步了解如何使用 JavaScript 抓取静态电子商务网站。在此示例中，我们将使用两个流行的库：用于 HTTP 请求的 Axios 和用于解析 HTML 的 Cheerio。

*1。安装依赖项 *
使用 npm 安装 Axios 和 Cheerio：

npm 安装 axios Cheerio

*2。创建脚本 *
创建一个 JavaScript 文件，例如B. scrapeEcommerce.js 并在代码编辑器中打开它。

*3。导入模块*
将 Axios 和 Cheerio 导入到您的脚本中：

const axios = require('axios');

const Cheerio = require('cheerio');

*4。定义目标 URL *
选择您要访问的电子商务网站。在此示例中，我们使用假设的 URL http://example-ecommerce.com。将其替换为所需的 URL：

const url = 'http://example-ecommerce.com';

*5。获取 HTML 内容 *
使用axios向目标URL发送GET请求，获取HTML内容：

axios.get(url)

.then(响应 => {

const html = response.data;

// 现在可以解析 HTML 内容

})

.catch(错误=> {

console.error('获取页面时出错：', error);

});

*6。解析 HTML 并提取数据 *
使用 Cheerio 解析 HTML 代码并提取您想要的信息，例如产品名称和价格：

axios.get(url)

.then(响应 => {

const html = response.data;

const $ = Cheerio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);

})

.catch(错误=> {

console.error('获取页面时出错：', error);

});

*最重要的一点*

axios.get(url)：发送 GET 请求并返回承诺。
.then(response => { … })：如果请求成功，HTML内容在response.data中。
cheerio.load(html)：将 HTML 内容加载到 Cheerio 中，以进行类似 jQuery 的 DOM 操作。
$('.product').each((index, element) => { … })：迭代所有 .product 元素。
$(element).find('.product-name').text().trim()：提取产品名称。
$(element).find('.product-price').text().trim()：提取产品的价格。
products.push({ name,price })：将产品信息添加到产品数组中。
console.log(products)：输出提取的信息。

*完整示例脚本：*
const axios = require('axios');

const Cheerio = require('cheerio');

const url = 'http://example-ecommerce.com';

axios.get(url)

.then(响应 => {

const html = response.data;

const $ = Cheerio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);

})

.catch(错误=> {

console.error('获取页面时出错：', error);

});

*着陆页的自定义：*

选择器：.product、.product-name 和 .product-price 选择器必须适应目标页面的实际 HTML 结构。
其他数据：有关其他信息（例如产品图片、链接、描述），请检查相应的 HTML 结构。

使用 JavaScript 抓取网站的网页抓取工具

如果您最近需要 Python、Ruby 或其他编程语言进行网页抓取，Octoparse 是一个出色的工具，特别是对于支持 JavaScript 的网站。

举个具体的例子：如果你有一个目标网站，想要开始抓取，你首先应该检查该网站是否被阻止JS抓取。不同的网站使用不同的保护方法，您可能需要一些时间和令人沮丧的尝试才能意识到问题，特别是如果抓取没有产生预期的结果。然而，使用网络抓取工具，数据提取过程会顺利进行。

许多网络抓取工具可以让您免去编写爬虫的麻烦。 Octoparse 在抓取大量 JavaScript 页面方面特别高效，可以从 99% 的网页中提取数据，包括使用 Ajax 的网页。它还提供验证码解决服务。 Octoparse 可免费使用，并提供自动发现功能和 100 多个易于使用的模板，可实现高效的数据提取。新用户还可以享受 14 天的试用期。

以上是高效抓取 JavaScript 网站的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

平台独立性如何使企业级的Java应用程序受益？May 03, 2025 am 12:23 AM

Java在企业级应用中被广泛使用是因为其平台独立性。1）平台独立性通过Java虚拟机（JVM）实现，使代码可在任何支持Java的平台上运行。2）它简化了跨平台部署和开发流程，提供了更大的灵活性和扩展性。3）然而，需注意性能差异和第三方库兼容性，并采用最佳实践如使用纯Java代码和跨平台测试。

考虑到平台独立性，Java在物联网（物联网）设备的开发中扮演什么角色？May 03, 2025 am 12:22 AM

JavaplaysigantroleiniotduetoitsplatFormentence.1）itallowscodeTobewrittenOnCeandrunonVariousDevices.2）Java'secosystemprovidesuseusefidesusefidesulylibrariesforiot.3）

描述一个方案，您在Java中遇到了一个特定于平台的问题以及如何解决。May 03, 2025 am 12:21 AM

ThesolutiontohandlefilepathsacrossWindowsandLinuxinJavaistousePaths.get()fromthejava.nio.filepackage.1)UsePaths.get()withSystem.getProperty("user.dir")andtherelativepathtoconstructthefilepath.2)ConverttheresultingPathobjecttoaFileobjectifne

Java平台独立对开发人员有什么好处？May 03, 2025 am 12:15 AM

Java'splatFormIndenceistificantBecapeitAllowSitallowsDevelostWriTecoDeonCeandRunitonAnyPlatFormwithAjvm.this“ writeonce，runanywhere”（era）橱柜橱柜：1）交叉plat formcomplibility cross-platformcombiblesible，enablingDeploymentMentMentMentMentAcrAptAprospOspOspOssCrossDifferentoSswithOssuse; 2）