java keluarkan html

WBOY
WBOYasal
2023-05-09 09:31:072060semak imbas

Java ialah bahasa pengaturcaraan yang digunakan secara meluas yang boleh digunakan untuk membangunkan pelbagai jenis aplikasi. Dalam banyak aplikasi, teks perlu diproses, dan salah satu masalah biasa ialah cara mengalih keluar tag HTML. Penanda HTML ialah bahasa kod yang digunakan untuk menanda teks dan kandungan lain dalam halaman web, tetapi jika teks itu perlu diproses atau digunakan di tempat lain, penanda itu perlu dialih keluar. Artikel ini akan membincangkan cara mengalih keluar tag HTML menggunakan Java.

1. Gunakan ungkapan biasa untuk mengalih keluar teg HTML

Dalam Java, anda boleh menggunakan ungkapan biasa untuk memadankan dan menggantikan teks. Oleh itu, teg HTML boleh dialih keluar menggunakan ungkapan biasa. Berikut ialah kod contoh:

import java.util.regex.Pattern;
import java.util.regex.Matcher;

public class HtmlTagRemover {
  public static void main(String[] args) {
    String html = "<p>这是一段包含HTML标记的文本</p>";
    String noHtml = html.replaceAll("\<.*?\>", "");
    System.out.println(noHtml);
  }
}

Dalam kod sampel ini, gunakan kaedah replaceAll() untuk menggantikan semua teg HTML dengan rentetan kosong. Ungkapan biasa 9f5e5faf78db27194cc49a94097f2623 sepadan dengan semua rentetan bermula dengan eae3319710e55be55158df6ac79a7205, iaitu teg HTML. Ungkapan ini menggunakan mod tidak tamak, yang hanya sepadan dengan rentetan terpendek. Oleh itu, semua tag HTML dijamin akan dialih keluar.

2. Gunakan perpustakaan Jsoup untuk mengalih keluar teg HTML

Selain menggunakan ungkapan biasa, anda juga boleh menggunakan pustaka Jsoup untuk mengalih keluar teg HTML. Jsoup ialah penghurai HTML Java sumber terbuka yang boleh mengekstrak data daripada dokumen HTML, mencipta dokumen DOM dan menyediakan beberapa API yang mudah untuk mengendalikan dokumen HTML. Berikut ialah contoh kod yang menggunakan Jsoup untuk mengalih keluar teg HTML:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class HtmlTagRemover {
  public static void main(String[] args) {
    String html = "<p>这是一段包含HTML标记的文本</p>";
    Document doc = Jsoup.parse(html);
    Elements elements = doc.select("*");
    for (Element element : elements) {
        element.remove();
    }
    String noHtml = doc.text();
    System.out.println(noHtml);
  }
}

Dalam kod sampel ini, mula-mula gunakan kaedah Jsoup.parse() untuk menukar teks HTML kepada objek Dokumen Jsoup. Kemudian, gunakan kaedah doc.select("*") untuk memilih semua elemen. Seterusnya, gunakan kaedah element.remove() untuk mengalih keluar semua elemen. Akhir sekali, gunakan kaedah doc.text() untuk mendapatkan teks tanpa tag HTML. Melalui kaedah ini, tag HTML boleh dialih keluar dengan mudah.

3. Kesimpulan

Artikel ini memperkenalkan dua kaedah untuk mengalih keluar teg HTML: menggunakan ungkapan biasa dan menggunakan perpustakaan Jsoup. Kedua-dua kaedah adalah mudah untuk memproses teks HTML, dan anda boleh memilih salah satu daripadanya mengikut keperluan anda. Saya harap pembaca dapat memahami cara mengalih keluar tag HTML di Java melalui artikel ini dan menerapkannya dalam amalan.

Atas ialah kandungan terperinci java keluarkan html. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn