ホームページ >バックエンド開発 >C++ >C#正規式を使用してドキュメントからHTMLタグを削除する方法は?

C#正規式を使用してドキュメントからHTMLタグを削除する方法は?

DDD
DDDオリジナル
2025-01-25 11:17:09567ブラウズ

How to Remove HTML Tags from a Document Using C# Regular Expressions?

c#正規表現を使用してHTMLタグを削除しますHTMLコンテンツを処理する場合、データの抽出またはテキスト分析にはラベルの削除が不可欠です。 1つの方法は、C#正規表現を使用してこのタスクを実行することです。 質問: c#正規式を使用して、HTMLドキュメントからすべてのHTMLタグ(括弧を含む)を削除する方法は?

コード:

説明:

正規表現モード

string htmlDocument = @"<p><b>Example text</b> containing tags</p>";

string result = Regex.Replace(htmlDocument, @"<[^>]*>", String.Empty);

Console.WriteLine(result); // 输出:Example text containing tags
の最後のラベル(変更記号を除く)を一致させます。

メソッドは、すべてのマッチングモードを空の文字列に置き換えます。

このメソッドは、Spriteブラケットを含むHTMLドキュメントからすべてのタグを効果的に削除します。
  • ]*>注: <code>>
  • 通常の式は有用ですが、HTMLまたはXMLドキュメントを処理するときに制限があることに注意する必要があります。それらは、ネストされた構造を効果的に処理することはできません。これは、場合によっては予期しない結果につながる可能性があります(スプライトブラケットを含むCDATAなど)。 したがって、複雑なHTML構造の場合、より強力なHTMLパーサーを使用することをお勧めします。

以上がC#正規式を使用してドキュメントからHTMLタグを削除する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。