Java は、さまざまな種類のアプリケーションの開発に使用できる、広く使用されているプログラミング言語です。多くのアプリケーションではテキストを処理する必要があり、よくある問題の 1 つは HTML タグを削除する方法です。 HTML マークアップは、Web ページ内のテキストやその他のコンテンツをマークアップするために使用されるコード言語ですが、テキストを処理したり別の場所に適用する必要がある場合は、マークアップを削除する必要があります。この記事では、Java を使用して HTML タグを削除する方法について説明します。
1. 正規表現を使用して HTML タグを削除する
Java では、正規表現を使用してテキストの一致と置換を行うことができます。したがって、正規表現を使用して HTML タグを削除できます。サンプル コードは次のとおりです。
import java.util.regex.Pattern; import java.util.regex.Matcher; public class HtmlTagRemover { public static void main(String[] args) { String html = "<p>这是一段包含HTML标记的文本</p>"; String noHtml = html.replaceAll("\<.*?\>", ""); System.out.println(noHtml); } }
このサンプル コードでは、replaceAll()
メソッドを使用して、すべての HTML タグを空の文字列に置き換えます。正規表現 \3a9222b97599f844590a248794f307e0
は、d6827557dd462fbc25e32659bd8420fd
で終わるすべての文字列、つまり HTML マークと一致します。この式では、最短の文字列のみに一致する非貪欲モードが使用されます。したがって、すべての HTML タグが削除されることが保証されます。
2. Jsoup ライブラリを使用して HTML タグを削除する
正規表現を使用するだけでなく、Jsoup ライブラリを使用して HTML タグを削除することもできます。 Jsoup は、HTML ドキュメントからデータを抽出し、DOM ドキュメントを作成し、HTML ドキュメントを操作するための便利な API を提供するオープン ソースの Java HTML パーサーです。以下は、Jsoup を使用して HTML タグを削除するサンプル コードです。
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class HtmlTagRemover { public static void main(String[] args) { String html = "<p>这是一段包含HTML标记的文本</p>"; Document doc = Jsoup.parse(html); Elements elements = doc.select("*"); for (Element element : elements) { element.remove(); } String noHtml = doc.text(); System.out.println(noHtml); } }
このサンプル コードでは、まず Jsoup.parse()
メソッドを使用して、HTML テキストを Jsoup ドキュメントに変換します。物体。次に、doc.select("*")
メソッドを使用してすべての要素を選択します。次に、element.remove()
メソッドを使用して、すべての要素を削除します。最後に、doc.text()
メソッドを使用して、HTML タグのないテキストを取得します。この方法により、HTMLタグを簡単に削除することができます。
3. 結論
この記事では、HTML タグを削除する 2 つの方法 (正規表現を使用する方法と Jsoup ライブラリを使用する方法) を紹介します。どちらの方法も HTML テキストの処理に便利で、必要に応じていずれかを選択できます。読者がこの記事を通じて Java で HTML タグを削除する方法を理解し、実際に適用できることを願っています。
以上がJavaはHTMLを削除しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。