首页  >  文章  >  Java  >  如何在Java中高效地从具有特定类名的HTML DIV标签中提取数据?

如何在Java中高效地从具有特定类名的HTML DIV标签中提取数据?

Susan Sarandon
Susan Sarandon原创
2024-10-24 17:03:02349浏览

How to Efficiently Extract Data from HTML DIV Tags with a Specific Class Name in Java?

Java HTML 解析

在使用网页抓取应用程序时,有必要从 HTML 页面中有效地提取数据。在此场景中,任务是从具有给定 CSS 类名的特定 DIV 标签获取数据。虽然当前在每行 HTML 中搜索类名的方法是有效的,但它可能不是最佳的。

Jsoup 作为替代方案

考虑使用 Jsoup HTML 处理库。 Jsoup 旨在处理格式错误的 HTML,并提供了一种使用类似 jQuery 的标签选择器在 Java 中解析 HTML 的便捷语法。

使用 Jsoup

要使用 Jsoup,请按照以下步骤操作步骤:

  1. 将 Jsoup 库导入到您的项目中。
  2. 从 HTML 源代码创建 Jsoup 文档对象。
  3. 使用 select 方法查找 DIV具有指定 CSS 类名的标签。
  4. 使用 text() 等方法获取提取的数据以获取文本内容或 attr("href") 检索链接 URL。

例如:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

Document doc = Jsoup.parse(html);
Elements divs = doc.select("div.classname");

for (Element div : divs) {
    if (div.hasClass("classname")) {
        System.out.println("Text: " + div.text());
        System.out.println("Link: " + div.attr("href"));
    }
}</code>

以上是如何在Java中高效地从具有特定类名的HTML DIV标签中提取数据?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn