首頁 >Java >java教程 >Java中正規表示式能否有效解析HTML?

Java中正規表示式能否有效解析HTML?

Susan Sarandon
Susan Sarandon原創
2024-11-06 06:04:02718瀏覽

Can Regular Expressions Effectively Parse HTML in Java?

在Java中使用正規表示式解析HTML

識別href和src標籤等HTML元素可以透過正規表示式來實現,儘管它是通常不推薦。如果您仍在考慮這種方法,讓我們深入研究如何在Java 中實現它:

使用正規表示式解析

要尋找href 標籤,您可以使用正規表示式如:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");

找出src 標籤:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");

擷取URL

一旦有了模式,就可以匹配它們針對您的HTML 字串並擷取URL 群組:

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}

建議

但是,強烈建議使用HTML 解析器而不是正規表示式。 HTML 結構非常複雜,正規表示式常常會忽略邊緣情況。像 JSoup 這樣的專用 HTML 解析器更擅長解釋 HTML 並可靠地提取所需的元素。

以上是Java中正規表示式能否有效解析HTML?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn