Rumah >Java >javaTutorial >Cara menggunakan fungsi JSoup untuk penghuraian HTML dalam Java

Cara menggunakan fungsi JSoup untuk penghuraian HTML dalam Java

WBOY
WBOYasal
2023-06-26 13:41:331570semak imbas

HTML ialah perwakilan asas halaman web. Jika anda ingin mendapatkan dan memanipulasi kandungan dokumen HTML dalam Java, anda perlu menggunakan alat penghuraian sumber terbuka, seperti fungsi JSoup. JSoup ialah perpustakaan Java untuk memproses dokumen HTML Ia menyediakan cara yang sangat mudah untuk mengekstrak data dan elemen tertentu daripada dokumen HTML. Artikel ini akan memperkenalkan penggunaan JSoup dalam Java.

  1. Import JSoup

Pertama, anda perlu mengimport perpustakaan JSoup dalam projek Java anda. Anda boleh mencari dan memuat turun JSoup dalam repositori pusat Maven. Selepas muat turun selesai, nyahzip fail JSoup.jar dan importnya ke dalam projek Java anda.

  1. Buat objek Dokumen JSoup

Dalam kod Java anda, buat objek Dokumen untuk membaca dan menghuraikan dokumen HTML. Anda boleh menggunakan kaedah connect() dalam perpustakaan JSoup untuk menentukan laluan URL untuk dihuraikan dan JSoup akan memuat turun secara automatik, menghuraikan dokumen HTML dan mengembalikan objek Dokumen, contohnya:

String url = "https://www.example.com";
Document doc = Jsoup.connect(url).get();
  1. Ekstrak elemen HTML

Dengan objek Dokumen , anda boleh mengekstrak elemen HTML tertentu daripada dokumen HTML. Anda boleh menggunakan kaedah select() objek Dokumen dan masukkan sintaks pemilih CSS untuk menapis elemen yang anda inginkan, contohnya:

Element elementById = doc.select("#example-id").first();
Elements elementsByClass = doc.select(".example-class");

Kod di atas memperoleh elemen yang sepadan melalui ID dan nama kelas masing-masing. Anda juga boleh menggunakan pemilih lain seperti nama teg, nilai atribut atau nama atribut.

  1. Memanipulasi elemen HTML

Setelah anda memperoleh elemen yang sepadan daripada dokumen HTML, anda boleh memanipulasi lagi elemen ini. Anda boleh menggunakan kaedah text() objek Elemen untuk mendapatkan kandungan teks elemen, contohnya:

String textById = elementById.text();
String textByClass = elementsByClass.text();

Anda juga boleh menggunakan kaedah atribut() objek Elemen untuk mendapatkan nilai atribut elemen .

Element element = doc.select("a").first();
String href = element.attributes().get("href");
  1. Mengendalikan borang HTML

Selain mendapatkan elemen HTML, JSoup juga menyediakan alatan yang mudah untuk memproses borang HTML. Anda boleh menggunakan kaedah dalam objek Dokumen, seperti kaedah select(), attr() dan text() untuk mengubah suai nilai elemen bentuk.

Document doc = Jsoup.parse("<form action='/my-url' method='post'>"
        + "<input type='text' name='username'/>"
        + "<input type='password' name='password'/>"
        + "<input type='submit' value='Login'/>"
        + "</form>");

Element formElement = doc.select("form").first();
formElement.attr("action", "login.jsp");
formElement.select("[name=username]").attr("value", "myUsername");
formElement.select("[name=password]").attr("value", "myPassword");
  1. Ralat pengendalian

Apabila anda menggunakan JSoup untuk menghuraikan dokumen HTML, kadangkala pengecualian berlaku. Oleh itu, dalam kod Java anda, anda perlu mengendalikan pengecualian IOException dan ParseException yang dilemparkan oleh JSoup. Pengecualian ini boleh ditangkap menggunakan blok Try-catch.

try {
    Document doc = Jsoup.connect("http://example.com").get();
} catch (IOException e) {
    e.printStackTrace();
} catch (ParseException e) {
    e.printStackTrace();
}

Ringkasan

Di atas ialah cara menggunakan fungsi JSoup untuk penghuraian HTML. Melalui JSoup, anda boleh mendapatkan dan mengendalikan dokumen HTML dalam Java dengan mudah. Dengan memasukkan perpustakaan JSoup dalam projek Java anda dan menggunakan objek Dokumen, pemilih dan API JSoup dengan betul untuk memanipulasi elemen, anda boleh menyelesaikan tugas dengan mudah seperti mengambil data dan mengubah suai borang HTML.

Atas ialah kandungan terperinci Cara menggunakan fungsi JSoup untuk penghuraian HTML dalam Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn