Rumah >Java >javaTutorial >Cara menggunakan fungsi JSoup untuk penghuraian HTML dalam Java
HTML ialah perwakilan asas halaman web. Jika anda ingin mendapatkan dan memanipulasi kandungan dokumen HTML dalam Java, anda perlu menggunakan alat penghuraian sumber terbuka, seperti fungsi JSoup. JSoup ialah perpustakaan Java untuk memproses dokumen HTML Ia menyediakan cara yang sangat mudah untuk mengekstrak data dan elemen tertentu daripada dokumen HTML. Artikel ini akan memperkenalkan penggunaan JSoup dalam Java.
Pertama, anda perlu mengimport perpustakaan JSoup dalam projek Java anda. Anda boleh mencari dan memuat turun JSoup dalam repositori pusat Maven. Selepas muat turun selesai, nyahzip fail JSoup.jar dan importnya ke dalam projek Java anda.
Dalam kod Java anda, buat objek Dokumen untuk membaca dan menghuraikan dokumen HTML. Anda boleh menggunakan kaedah connect() dalam perpustakaan JSoup untuk menentukan laluan URL untuk dihuraikan dan JSoup akan memuat turun secara automatik, menghuraikan dokumen HTML dan mengembalikan objek Dokumen, contohnya:
String url = "https://www.example.com"; Document doc = Jsoup.connect(url).get();
Dengan objek Dokumen , anda boleh mengekstrak elemen HTML tertentu daripada dokumen HTML. Anda boleh menggunakan kaedah select() objek Dokumen dan masukkan sintaks pemilih CSS untuk menapis elemen yang anda inginkan, contohnya:
Element elementById = doc.select("#example-id").first(); Elements elementsByClass = doc.select(".example-class");
Kod di atas memperoleh elemen yang sepadan melalui ID dan nama kelas masing-masing. Anda juga boleh menggunakan pemilih lain seperti nama teg, nilai atribut atau nama atribut.
Setelah anda memperoleh elemen yang sepadan daripada dokumen HTML, anda boleh memanipulasi lagi elemen ini. Anda boleh menggunakan kaedah text() objek Elemen untuk mendapatkan kandungan teks elemen, contohnya:
String textById = elementById.text(); String textByClass = elementsByClass.text();
Anda juga boleh menggunakan kaedah atribut() objek Elemen untuk mendapatkan nilai atribut elemen .
Element element = doc.select("a").first(); String href = element.attributes().get("href");
Selain mendapatkan elemen HTML, JSoup juga menyediakan alatan yang mudah untuk memproses borang HTML. Anda boleh menggunakan kaedah dalam objek Dokumen, seperti kaedah select(), attr() dan text() untuk mengubah suai nilai elemen bentuk.
Document doc = Jsoup.parse("<form action='/my-url' method='post'>" + "<input type='text' name='username'/>" + "<input type='password' name='password'/>" + "<input type='submit' value='Login'/>" + "</form>"); Element formElement = doc.select("form").first(); formElement.attr("action", "login.jsp"); formElement.select("[name=username]").attr("value", "myUsername"); formElement.select("[name=password]").attr("value", "myPassword");
Apabila anda menggunakan JSoup untuk menghuraikan dokumen HTML, kadangkala pengecualian berlaku. Oleh itu, dalam kod Java anda, anda perlu mengendalikan pengecualian IOException dan ParseException yang dilemparkan oleh JSoup. Pengecualian ini boleh ditangkap menggunakan blok Try-catch.
try { Document doc = Jsoup.connect("http://example.com").get(); } catch (IOException e) { e.printStackTrace(); } catch (ParseException e) { e.printStackTrace(); }
Ringkasan
Di atas ialah cara menggunakan fungsi JSoup untuk penghuraian HTML. Melalui JSoup, anda boleh mendapatkan dan mengendalikan dokumen HTML dalam Java dengan mudah. Dengan memasukkan perpustakaan JSoup dalam projek Java anda dan menggunakan objek Dokumen, pemilih dan API JSoup dengan betul untuk memanipulasi elemen, anda boleh menyelesaikan tugas dengan mudah seperti mengambil data dan mengubah suai borang HTML.
Atas ialah kandungan terperinci Cara menggunakan fungsi JSoup untuk penghuraian HTML dalam Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!