Rumah >Java >javaTutorial >Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?

Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?

Barbara Streisand
Barbara Streisandasal
2024-10-25 02:11:29692semak imbas

How can I extract data from HTML documents using Java?

Penghuraian HTML Java

Untuk mendapatkan data daripada tapak web, anda mesti memahami struktur dokumen HTML terlebih dahulu. Elemen HTML disusun menggunakan teg, yang menentukan jenis dan kandungan setiap elemen.

Sebagai contoh, HTML berikut mewakili teg div dengan kelas CSS tertentu:

<code class="html"><div class="classname"></div></code>

Untuk mencari dan mendapatkan semula data daripada teg ini dalam Java, anda boleh menggunakan perpustakaan penghurai HTML Java. Satu pilihan ialah jsoup, yang membolehkan penghuraian HTML yang mudah menggunakan sintaks seperti jQuery:

<code class="java">import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

String html = "<div class=\"classname\">Data to be scraped</div>";
Document doc = Jsoup.parse(html);

boolean usesClass = doc.select("div.classname").hasAttr("class");
String text = doc.select("div.classname").text();
String link = doc.select("div.classname").attr("href");</code>

Dengan jsoup, anda boleh menyemak dengan mudah sama ada elemen mempunyai kelas tertentu, mendapatkan semula kandungan teksnya atau mendapatkan sebarang atribut mungkin ada.

Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn