Java HTML 解析
在使用网页抓取应用程序时,有必要从 HTML 页面中有效地提取数据。在此场景中,任务是从具有给定 CSS 类名的特定 DIV 标签获取数据。虽然当前在每行 HTML 中搜索类名的方法是有效的,但它可能不是最佳的。
Jsoup 作为替代方案
考虑使用 Jsoup HTML 处理库。 Jsoup 旨在处理格式错误的 HTML,并提供了一种使用类似 jQuery 的标签选择器在 Java 中解析 HTML 的便捷语法。
使用 Jsoup
要使用 Jsoup,请按照以下步骤操作步骤:
例如:
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; Document doc = Jsoup.parse(html); Elements divs = doc.select("div.classname"); for (Element div : divs) { if (div.hasClass("classname")) { System.out.println("Text: " + div.text()); System.out.println("Link: " + div.attr("href")); } }</code>
以上是如何在Java中高效地从具有特定类名的HTML DIV标签中提取数据?的详细内容。更多信息请关注PHP中文网其他相关文章!