Menggunakan Ungkapan Biasa untuk Menghuraikan HTML dalam Java
Mengenal pasti elemen HTML seperti tag href dan src boleh dicapai melalui ungkapan biasa, walaupun ia selalunya tidak disyorkan. Jika anda masih mempertimbangkan pendekatan ini, mari kita mendalami cara untuk mencapainya dalam Java:
Menghuraikan dengan Ungkapan Biasa
Untuk mencari tag href, anda boleh menggunakan regex seperti:
Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
Untuk mencari teg src:
Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
Mengekstrak URL
Setelah anda mempunyai corak, anda boleh memadankannya terhadap rentetan HTML anda dan tangkap kumpulan URL:
Matcher m = p.matcher(htmlString); while (m.find()) { String url = m.group(1); }
Pengesyoran
Walau bagaimanapun, adalah dinasihatkan supaya menggunakan penghurai HTML dan bukannya ungkapan biasa. Struktur HTML adalah rumit, dan ungkapan biasa selalunya boleh mengabaikan kes tepi. Penghurai HTML khusus seperti JSoup jauh lebih mahir dalam mentafsir HTML dan mengekstrak elemen yang dikehendaki dengan pasti.
Atas ialah kandungan terperinci Bolehkah Ungkapan Biasa Menghuraikan HTML dengan berkesan dalam Java?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!