ホームページ  >  記事  >  Java  >  正規表現は Java で HTML を効果的に解析できますか?

正規表現は Java で HTML を効果的に解析できますか?

Susan Sarandon
Susan Sarandonオリジナル
2024-11-06 06:04:02634ブラウズ

Can Regular Expressions Effectively Parse HTML in Java?

Java で正規表現を使用して HTML を解析する

href タグや src タグなどの HTML 要素の識別は、正規表現を使用して行うことができます。推奨されないことが多いです。まだこのアプローチを検討している場合は、Java でこれを実現する方法を詳しく見てみましょう。

正規表現による解析

href タグを見つけるには、正規表現の例:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");

src タグを検索するには:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");

URL の抽出

パターンを取得したら、それらを照合できます

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}

推奨事項

ただし、正規表現の代わりに HTML パーサーを使用することを強くお勧めします。 HTML の構造は複雑なので、正規表現を使用すると、エッジ ケースが見落とされることがよくあります。 JSoup のような専用の HTML パーサーは、HTML を解釈し、必要な要素を確実に抽出することに非常に優れています。

以上が正規表現は Java で HTML を効果的に解析できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。