cari
RumahJavajavaTutorialMenggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java

Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java

Mengikis web ialah teknologi yang biasa digunakan dalam reka bentuk aplikasi Internet moden, dan ia juga merupakan alat penting untuk banyak analisis data tapak web dan perlombongan. Dalam pembangunan API Java, kami boleh menggunakan perpustakaan HtmlUnit untuk menyelesaikan tugas mengikis web dengan mudah.

HtmlUnit ialah penyemak imbas tanpa antara muka yang ditulis dalam Java Ia boleh mensimulasikan tingkah laku penyemak imbas, mengakses halaman Web seperti pengguna dan mendapatkan kandungan halaman. Pada masa yang sama, HtmlUnit juga menyediakan sokongan untuk JavaScript, yang boleh melaksanakan skrip pada halaman dan menyelesaikan operasi yang lebih kompleks.

Dalam artikel ini, kami akan memperkenalkan cara menggunakan HtmlUnit untuk mengikis web, bermula dengan pemasangan dan konfigurasi HtmlUnit. Kemudian, kami akan menunjukkan cara menggunakan HtmlUnit untuk mengakses tapak web dan mendapatkan kandungan halaman. Akhir sekali, kita akan melihat cara menggunakan HtmlUnit untuk menguji aplikasi web.

Memasang dan Mengkonfigurasi HtmlUnit

Untuk menggunakan HtmlUnit, kita perlu menambahkannya pada projek Java terlebih dahulu. HtmlUnit boleh diperolehi daripada perpustakaan kebergantungan bersatu Maven Kami hanya perlu menambah kebergantungan berikut dalam pom.xml:

<dependency>
    <groupId>net.sourceforge.htmlunit</groupId>
    <artifactId>htmlunit</artifactId>
    <version>2.50</version>
</dependency>

Dalam kod, kami perlu mengimport kelas HtmlUnit yang berkaitan:

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

Akses laman web dan dapatkan kandungan halaman

Menggunakan HtmlUnit, kita boleh mengakses laman web dengan mudah dan mendapatkan kandungan halaman. Coretan kod berikut menunjukkan cara menggunakan HtmlUnit untuk mengakses baidu.com dan mendapatkan tajuk halaman:

try (WebClient webClient = new WebClient()) {
    HtmlPage page = webClient.getPage("http://www.baidu.com");
    String title = page.getTitleText();
    System.out.println(title);
}

Dalam contoh ini, kami mencipta objek WebClient untuk mensimulasikan gelagat penyemak imbas, dan kemudian menggunakan kaedah getPage() untuk Mendapatkan objek HtmlPage halaman. Kami kemudiannya boleh menggunakan kaedah getTitleText() untuk mendapatkan tajuk halaman.

Selain mendapat tajuk halaman, kita juga boleh mendapatkan kandungan HTML halaman tersebut. Coretan kod berikut menunjukkan cara untuk mendapatkan kandungan HTML halaman utama Baidu:

try (WebClient webClient = new WebClient()) {
    HtmlPage page = webClient.getPage("http://www.baidu.com");
    String content = page.asXml();
    System.out.println(content);
}

Dalam contoh ini, kami menggunakan kaedah asXml() untuk mendapatkan kandungan HTML halaman tersebut.

Laksanakan JavaScript

HtmlUnit bukan sahaja boleh mendapatkan kandungan halaman statik, tetapi juga melaksanakan kod JavaScript pada halaman. Dalam kebanyakan tapak web moden, JavaScript telah menjadi bahagian penting, dan fungsi teras kebanyakan tapak web adalah berdasarkan JavaScript. Kod berikut menunjukkan cara menggunakan HtmlUnit untuk melaksanakan skrip JavaScript mudah:

try (WebClient webClient = new WebClient()) {
    String script = "var x = 1 + 1; x;";
    Object result = webClient.executeJavaScript(script).getJavaScriptResult();
    System.out.println(result);
}

Dalam contoh ini, kami mencipta skrip JavaScript mudah yang memberikan hasil 1 + 1 kepada pembolehubah x, dan kemudian mengembalikan x . Kami menggunakan kaedah executeJavaScript() untuk melaksanakan skrip ini, dan kaedah getJavaScriptResult() untuk mendapatkan hasil pelaksanaan skrip.

Menguji Aplikasi Web

Akhir sekali, mari kita lihat cara menggunakan HtmlUnit untuk menguji aplikasi web. Apabila menguji aplikasi web, kita perlu mensimulasikan tingkah laku pengguna, seperti memasukkan borang, mengklik butang, dsb. Kod berikut menunjukkan cara menggunakan HtmlUnit untuk menguji halaman log masuk mudah:

try (WebClient webClient = new WebClient()) {
    HtmlPage page = webClient.getPage("http://localhost:8080/login");
    HtmlForm form = page.getForms().get(0);
    form.getInputByName("username").setValueAttribute("admin");
    form.getInputByName("password").setValueAttribute("password");
    HtmlButton submitButton = form.getButtonByName("submit");
    HtmlPage resultPage = submitButton.click();
    assertEquals("http://localhost:8080/home", resultPage.getUrl().toString());
}

Dalam contoh ini, kami mula-mula membuka halaman log masuk, kemudian dapatkan elemen borang dan masukkan nama pengguna dan kata laluan. Seterusnya, kami mendapat butang hantar dan klik padanya. Akhir sekali, kami menyemak sama ada URL halaman menghala ke halaman sasaran yang dimaksudkan.

Kesimpulan

HtmlUnit ialah alat berkuasa yang memudahkan pengikisan dan ujian web. Menggunakan HtmlUnit, kami boleh dengan cepat mengambil kandungan tapak web, melaksanakan skrip JavaScript dan menguji aplikasi web kami. Memahami penggunaan asas HtmlUnit bukan sahaja pengumpulan pengetahuan teori, tetapi juga kemahiran yang sangat berguna dan perlu dalam pengaturcaraan sebenar.

Atas ialah kandungan terperinci Menggunakan HtmlUnit untuk mengikis Web dalam pembangunan API Java. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Bagaimanakah saya menggunakan Maven atau Gradle untuk Pengurusan Projek Java Lanjutan, Membina Automasi, dan Resolusi Ketergantungan?Bagaimanakah saya menggunakan Maven atau Gradle untuk Pengurusan Projek Java Lanjutan, Membina Automasi, dan Resolusi Ketergantungan?Mar 17, 2025 pm 05:46 PM

Artikel ini membincangkan menggunakan Maven dan Gradle untuk Pengurusan Projek Java, membina automasi, dan resolusi pergantungan, membandingkan pendekatan dan strategi pengoptimuman mereka.

Bagaimanakah saya membuat dan menggunakan perpustakaan Java Custom (fail JAR) dengan pengurusan versi dan pergantungan yang betul?Bagaimanakah saya membuat dan menggunakan perpustakaan Java Custom (fail JAR) dengan pengurusan versi dan pergantungan yang betul?Mar 17, 2025 pm 05:45 PM

Artikel ini membincangkan membuat dan menggunakan perpustakaan Java tersuai (fail balang) dengan pengurusan versi dan pergantungan yang betul, menggunakan alat seperti Maven dan Gradle.

Bagaimanakah saya melaksanakan caching pelbagai peringkat dalam aplikasi java menggunakan perpustakaan seperti kafein atau cache jambu?Bagaimanakah saya melaksanakan caching pelbagai peringkat dalam aplikasi java menggunakan perpustakaan seperti kafein atau cache jambu?Mar 17, 2025 pm 05:44 PM

Artikel ini membincangkan pelaksanaan caching pelbagai peringkat di Java menggunakan kafein dan cache jambu untuk meningkatkan prestasi aplikasi. Ia meliputi persediaan, integrasi, dan faedah prestasi, bersama -sama dengan Pengurusan Dasar Konfigurasi dan Pengusiran PRA Terbaik

Bagaimanakah saya boleh menggunakan JPA (Java Constence API) untuk pemetaan objek-objek dengan ciri-ciri canggih seperti caching dan malas malas?Bagaimanakah saya boleh menggunakan JPA (Java Constence API) untuk pemetaan objek-objek dengan ciri-ciri canggih seperti caching dan malas malas?Mar 17, 2025 pm 05:43 PM

Artikel ini membincangkan menggunakan JPA untuk pemetaan objek-relasi dengan ciri-ciri canggih seperti caching dan pemuatan malas. Ia meliputi persediaan, pemetaan entiti, dan amalan terbaik untuk mengoptimumkan prestasi sambil menonjolkan potensi perangkap. [159 aksara]

Bagaimanakah mekanisme kelas muatan Java berfungsi, termasuk kelas yang berbeza dan model delegasi mereka?Bagaimanakah mekanisme kelas muatan Java berfungsi, termasuk kelas yang berbeza dan model delegasi mereka?Mar 17, 2025 pm 05:35 PM

Kelas kelas Java melibatkan pemuatan, menghubungkan, dan memulakan kelas menggunakan sistem hierarki dengan bootstrap, lanjutan, dan pemuat kelas aplikasi. Model delegasi induk memastikan kelas teras dimuatkan dahulu, yang mempengaruhi LOA kelas tersuai

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

VSCode Windows 64-bit Muat Turun

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Versi Mac WebStorm

Versi Mac WebStorm

Alat pembangunan JavaScript yang berguna