首頁  >  文章  >  Java  >  如何在Java中高效率地從具有特定類別名稱的HTML DIV標籤中提取資料?

如何在Java中高效率地從具有特定類別名稱的HTML DIV標籤中提取資料?

Susan Sarandon
Susan Sarandon原創
2024-10-24 17:03:02260瀏覽

How to Efficiently Extract Data from HTML DIV Tags with a Specific Class Name in Java?

Java HTML 解析

在使用網頁抓取應用程式時,有必要從 HTML 頁面中有效地提取資料。在此場景中,任務是從具有給定 CSS 類別名稱的特定 DIV 標籤取得資料。雖然目前在每行 HTML 中搜尋類別名稱的方法是有效的,但它可能不是最佳的。

Jsoup 作為替代方案

考慮使用 Jsoup HTML 處理庫。 Jsoup 旨在處理格式錯誤的 HTML,並提供了使用類似 jQuery 的標籤選擇器在 Java 中解析 HTML 的便捷語法。

使用 Jsoup

要使用 Jsoup,請依照以下步驟操作步驟:

  1. 將 Jsoup 庫匯入您的專案中。
  2. 從 HTML 原始碼建立 Jsoup 文件物件。
  3. 使用 select 方法找出 DIV具有指定 CSS 類別名稱的標籤。
  4. 使用 text() 等方法取得擷取的資料以取得文字內容或使用 attr("href") 擷取連結 URL。

例如:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

Document doc = Jsoup.parse(html);
Elements divs = doc.select("div.classname");

for (Element div : divs) {
    if (div.hasClass("classname")) {
        System.out.println("Text: " + div.text());
        System.out.println("Link: " + div.attr("href"));
    }
}</code>

以上是如何在Java中高效率地從具有特定類別名稱的HTML DIV標籤中提取資料?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn