Java で正規表現を使用して HTML を解析する
href タグや src タグなどの HTML 要素の識別は、正規表現を使用して行うことができます。推奨されないことが多いです。まだこのアプローチを検討している場合は、Java でこれを実現する方法を詳しく見てみましょう。
正規表現による解析
href タグを見つけるには、正規表現の例:
Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
src タグを検索するには:
Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
URL の抽出
パターンを取得したら、それらを照合できます
Matcher m = p.matcher(htmlString); while (m.find()) { String url = m.group(1); }
推奨事項
ただし、正規表現の代わりに HTML パーサーを使用することを強くお勧めします。 HTML の構造は複雑なので、正規表現を使用すると、エッジ ケースが見落とされることがよくあります。 JSoup のような専用の HTML パーサーは、HTML を解釈し、必要な要素を確実に抽出することに非常に優れています。
以上が正規表現は Java で HTML を効果的に解析できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。