Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java
Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java
Mengikis web ialah teknologi yang biasa digunakan dalam reka bentuk aplikasi Internet moden, dan ia juga merupakan alat penting untuk banyak analisis data tapak web dan perlombongan. Dalam pembangunan API Java, kami boleh menggunakan perpustakaan HtmlUnit untuk menyelesaikan tugas mengikis web dengan mudah.
HtmlUnit ialah penyemak imbas tanpa antara muka yang ditulis dalam Java Ia boleh mensimulasikan tingkah laku penyemak imbas, mengakses halaman Web seperti pengguna dan mendapatkan kandungan halaman. Pada masa yang sama, HtmlUnit juga menyediakan sokongan untuk JavaScript, yang boleh melaksanakan skrip pada halaman dan menyelesaikan operasi yang lebih kompleks.
Dalam artikel ini, kami akan memperkenalkan cara menggunakan HtmlUnit untuk mengikis web, bermula dengan pemasangan dan konfigurasi HtmlUnit. Kemudian, kami akan menunjukkan cara menggunakan HtmlUnit untuk mengakses tapak web dan mendapatkan kandungan halaman. Akhir sekali, kita akan melihat cara menggunakan HtmlUnit untuk menguji aplikasi web.
Memasang dan Mengkonfigurasi HtmlUnit
Untuk menggunakan HtmlUnit, kita perlu menambahkannya pada projek Java terlebih dahulu. HtmlUnit boleh diperolehi daripada perpustakaan kebergantungan bersatu Maven Kami hanya perlu menambah kebergantungan berikut dalam pom.xml:
<dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.50</version> </dependency>
Dalam kod, kami perlu mengimport kelas HtmlUnit yang berkaitan:
import com.gargoylesoftware.htmlunit.WebClient; import com.gargoylesoftware.htmlunit.html.HtmlPage;
Akses laman web dan dapatkan kandungan halaman
Menggunakan HtmlUnit, kita boleh mengakses laman web dengan mudah dan mendapatkan kandungan halaman. Coretan kod berikut menunjukkan cara menggunakan HtmlUnit untuk mengakses baidu.com dan mendapatkan tajuk halaman:
try (WebClient webClient = new WebClient()) { HtmlPage page = webClient.getPage("http://www.baidu.com"); String title = page.getTitleText(); System.out.println(title); }
Dalam contoh ini, kami mencipta objek WebClient untuk mensimulasikan gelagat penyemak imbas, dan kemudian menggunakan kaedah getPage() untuk Mendapatkan objek HtmlPage halaman. Kami kemudiannya boleh menggunakan kaedah getTitleText() untuk mendapatkan tajuk halaman.
Selain mendapat tajuk halaman, kita juga boleh mendapatkan kandungan HTML halaman tersebut. Coretan kod berikut menunjukkan cara untuk mendapatkan kandungan HTML halaman utama Baidu:
try (WebClient webClient = new WebClient()) { HtmlPage page = webClient.getPage("http://www.baidu.com"); String content = page.asXml(); System.out.println(content); }
Dalam contoh ini, kami menggunakan kaedah asXml() untuk mendapatkan kandungan HTML halaman tersebut.
Laksanakan JavaScript
HtmlUnit bukan sahaja boleh mendapatkan kandungan halaman statik, tetapi juga melaksanakan kod JavaScript pada halaman. Dalam kebanyakan tapak web moden, JavaScript telah menjadi bahagian penting, dan fungsi teras kebanyakan tapak web adalah berdasarkan JavaScript. Kod berikut menunjukkan cara menggunakan HtmlUnit untuk melaksanakan skrip JavaScript mudah:
try (WebClient webClient = new WebClient()) { String script = "var x = 1 + 1; x;"; Object result = webClient.executeJavaScript(script).getJavaScriptResult(); System.out.println(result); }
Dalam contoh ini, kami mencipta skrip JavaScript mudah yang memberikan hasil 1 + 1 kepada pembolehubah x, dan kemudian mengembalikan x . Kami menggunakan kaedah executeJavaScript() untuk melaksanakan skrip ini, dan kaedah getJavaScriptResult() untuk mendapatkan hasil pelaksanaan skrip.
Menguji Aplikasi Web
Akhir sekali, mari kita lihat cara menggunakan HtmlUnit untuk menguji aplikasi web. Apabila menguji aplikasi web, kita perlu mensimulasikan tingkah laku pengguna, seperti memasukkan borang, mengklik butang, dsb. Kod berikut menunjukkan cara menggunakan HtmlUnit untuk menguji halaman log masuk mudah:
try (WebClient webClient = new WebClient()) { HtmlPage page = webClient.getPage("http://localhost:8080/login"); HtmlForm form = page.getForms().get(0); form.getInputByName("username").setValueAttribute("admin"); form.getInputByName("password").setValueAttribute("password"); HtmlButton submitButton = form.getButtonByName("submit"); HtmlPage resultPage = submitButton.click(); assertEquals("http://localhost:8080/home", resultPage.getUrl().toString()); }
Dalam contoh ini, kami mula-mula membuka halaman log masuk, kemudian dapatkan elemen borang dan masukkan nama pengguna dan kata laluan. Seterusnya, kami mendapat butang hantar dan klik padanya. Akhir sekali, kami menyemak sama ada URL halaman menghala ke halaman sasaran yang dimaksudkan.
Kesimpulan
HtmlUnit ialah alat berkuasa yang memudahkan pengikisan dan ujian web. Menggunakan HtmlUnit, kami boleh dengan cepat mengambil kandungan tapak web, melaksanakan skrip JavaScript dan menguji aplikasi web kami. Memahami penggunaan asas HtmlUnit bukan sahaja pengumpulan pengetahuan teori, tetapi juga kemahiran yang sangat berguna dan perlu dalam pengaturcaraan sebenar.
Atas ialah kandungan terperinci Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Artikel ini membincangkan menggunakan Maven dan Gradle untuk Pengurusan Projek Java, membina automasi, dan resolusi pergantungan, membandingkan pendekatan dan strategi pengoptimuman mereka.

Artikel ini membincangkan membuat dan menggunakan perpustakaan Java tersuai (fail balang) dengan pengurusan versi dan pergantungan yang betul, menggunakan alat seperti Maven dan Gradle.

Artikel ini membincangkan pelaksanaan caching pelbagai peringkat di Java menggunakan kafein dan cache jambu untuk meningkatkan prestasi aplikasi. Ia meliputi persediaan, integrasi, dan faedah prestasi, bersama -sama dengan Pengurusan Dasar Konfigurasi dan Pengusiran PRA Terbaik

Artikel ini membincangkan menggunakan JPA untuk pemetaan objek-relasi dengan ciri-ciri canggih seperti caching dan pemuatan malas. Ia meliputi persediaan, pemetaan entiti, dan amalan terbaik untuk mengoptimumkan prestasi sambil menonjolkan potensi perangkap. [159 aksara]

Kelas kelas Java melibatkan pemuatan, menghubungkan, dan memulakan kelas menggunakan sistem hierarki dengan bootstrap, lanjutan, dan pemuat kelas aplikasi. Model delegasi induk memastikan kelas teras dimuatkan dahulu, yang mempengaruhi LOA kelas tersuai


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

ZendStudio 13.5.1 Mac
Persekitaran pembangunan bersepadu PHP yang berkuasa

VSCode Windows 64-bit Muat Turun
Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna