Rumah >Java >javaTutorial >Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?
Penghuraian HTML Java
Untuk mendapatkan data daripada tapak web, anda mesti memahami struktur dokumen HTML terlebih dahulu. Elemen HTML disusun menggunakan teg, yang menentukan jenis dan kandungan setiap elemen.
Sebagai contoh, HTML berikut mewakili teg div dengan kelas CSS tertentu:
<code class="html"><div class="classname"></div></code>
Untuk mencari dan mendapatkan semula data daripada teg ini dalam Java, anda boleh menggunakan perpustakaan penghurai HTML Java. Satu pilihan ialah jsoup, yang membolehkan penghuraian HTML yang mudah menggunakan sintaks seperti jQuery:
<code class="java">import org.jsoup.Jsoup; import org.jsoup.nodes.Document; String html = "<div class=\"classname\">Data to be scraped</div>"; Document doc = Jsoup.parse(html); boolean usesClass = doc.select("div.classname").hasAttr("class"); String text = doc.select("div.classname").text(); String link = doc.select("div.classname").attr("href");</code>
Dengan jsoup, anda boleh menyemak dengan mudah sama ada elemen mempunyai kelas tertentu, mendapatkan semula kandungan teksnya atau mendapatkan sebarang atribut mungkin ada.
Atas ialah kandungan terperinci Bagaimanakah saya boleh mengekstrak data daripada dokumen HTML menggunakan Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!