Rumah  >  Artikel  >  Java  >  Bagaimana untuk Mengekstrak Data Halaman Web ke dalam Program Java dengan Jsoup?

Bagaimana untuk Mengekstrak Data Halaman Web ke dalam Program Java dengan Jsoup?

Linda Hamilton
Linda Hamiltonasal
2024-10-30 21:47:30938semak imbas

How to Extract Web Page Data into Java Programs with Jsoup?

Pengeluaran Data Halaman Web untuk Program Java

Mengekstrak maklumat daripada halaman web ke dalam program Java memerlukan teknik khusus yang dikenali sebagai pengikisan web. Pengikisan web melibatkan penghuraian kandungan HTML untuk mengenal pasti dan mengekstrak data yang disasarkan.

Satu pendekatan yang sangat disyorkan ialah menggunakan penghurai HTML Jsoup, yang terkenal dengan sokongan pemilih CSS seperti jQuery dan dipertingkatkan untuk keserasian gelung. Berikut ialah contoh kod Java yang menunjukkan proses mengikis web:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class WebScraper {

    public static void main(String[] args) throws Exception {
        // Target URL
        String url = "https://www.bestbuy.com/site/best-buy-insignia-55-class-f30-series-led-4k-uhd-smart-fire-tv/6494164.p?skuId=6494164";

        // Connect to the URL and parse HTML content
        Document document = Jsoup.connect(url).get();

        // Get product information using CSS selectors
        String title = document.select("h1.page-title").text();
        String price = document.select(".priceView-customer-price").text();
        String description = document.select(".product-lang-en-us .product-description-rich-html").text();

        // Print results</code>

Atas ialah kandungan terperinci Bagaimana untuk Mengekstrak Data Halaman Web ke dalam Program Java dengan Jsoup?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn