首頁 >Java >java教程 >Jsoup 如何讓 Java 中的網頁抓取變得簡單又有效率?

Jsoup 如何讓 Java 中的網頁抓取變得簡單又有效率?

Patricia Arquette
Patricia Arquette原創
2024-10-29 07:56:02400瀏覽

How Can Jsoup Make Web Scraping in Java Easy and Efficient?

Java 中網頁抓取的HTML 解析

在軟體開發領域,有必要從網站中提取有價值的資訊以用於各種目的。這種從線上來源提取資料的過程通常稱為網頁抓取。 Java 程式設計師可以使用多功能工具來完成此任務:HTML 解析器。

強烈建議的 Java HTML 解析器是 Jsoup。它的出色之處在於其用戶友好的類似 jQuery 的 CSS 選擇器和靈活的 Elements 類,可以輕鬆迭代。

開始使用Jsoup 進行網頁抓取

讓我們深入研究一個簡單的範例來說明如何使用Jsoup 進行網頁抓取:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Test {

    public static void main(String[] args) throws Exception {
        String url = "https://stackoverflow.com/questions/2835505";
        Document document = Jsoup.connect(url).get();

        String question = document.select("#question .post-text").text();
        System.out.println("Question: " + question);

        Elements answerers = document.select("#answers .user-details a");
        for (Element answerer : answerers) {
            System.out.println("Answerer: " + answerer.text());
        }
    }

}</code>

在此範例中,我們連接到特定的Stack Overflow 問題,解析HTML 內容,並提取問題的文字以及問題的名稱

自訂您的網頁抓取

Jsoup 的表現力允許廣泛的網頁抓取場景。透過利用 CSS 選擇器,您可以定位網頁上的特定元素或屬性。例如,如果您想檢索百思買上產品頁面的標題、價格和描述,您可以使用以下 CSS 選擇器:


以上是Jsoup 如何讓 Java 中的網頁抓取變得簡單又有效率?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn