Rumah  >  Artikel  >  Java  >  Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?

Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?

Susan Sarandon
Susan Sarandonasal
2024-11-06 06:04:02634semak imbas

Can Regular Expressions Effectively Parse HTML in Java?

Menggunakan Ungkapan Biasa untuk Menghuraikan HTML dalam Java

Mengenal pasti elemen HTML seperti tag href dan src boleh dicapai melalui ungkapan biasa, walaupun ia selalunya tidak disyorkan. Jika anda masih mempertimbangkan pendekatan ini, mari kita mendalami cara untuk mencapainya dalam Java:

Menghuraikan dengan Ungkapan Biasa

Untuk mencari tag href, anda boleh menggunakan regex seperti:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");

Untuk mencari teg src:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");

Mengekstrak URL

Setelah anda mempunyai corak, anda boleh memadankannya terhadap rentetan HTML anda dan tangkap kumpulan URL:

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}

Pengesyoran

Walau bagaimanapun, adalah dinasihatkan supaya menggunakan penghurai HTML dan bukannya ungkapan biasa. Struktur HTML adalah rumit, dan ungkapan biasa selalunya boleh mengabaikan kes tepi. Penghurai HTML khusus seperti JSoup jauh lebih mahir dalam mentafsir HTML dan mengekstrak elemen yang dikehendaki dengan pasti.

Atas ialah kandungan terperinci Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn