>백엔드 개발 >C++ >문자열에서 모든 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

문자열에서 모든 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?

DDD
DDD원래의
2025-01-05 11:53:41722검색

How Can I Remove All HTML Tags from a String Efficiently?

태그를 지정하지 않고 문자열에서 HTML 제거

질문:

문자열에서 모든 HTML 태그를 쉽게 제거하려면 어떻게 해야 합니까? , 특정 태그에 관계없이 관련되어 있습니까?

예:

다음 HTML 리치 문자열을 고려하십시오.

string title = "<b>Hulk Hogan's Celebrity Championship Wrestling     <font color=\"#228b22\">[Proj # 206010]</font></b>     (Reality Series,)

이상적으로는 다음과 같은 출력을 원합니다. be:

"Hulk Hogan's Celebrity Championship Wrestling [Proj # 206010] (Reality Series)"

솔루션:

정규식 접근 방식:

정규 표현식을 활용하는 효율적인 솔루션:

public static string StripHTML(string input)
{
   return Regex.Replace(input, "<.*?>", String.Empty);
}

이 정규 표현식은 꺾쇠 괄호로 묶인 모든 문자열과 일치합니다. (< 및 >)를 입력하고 빈 문자열로 바꿉니다.

HTML Agility Pack:

또는 HTML Agility Pack 라이브러리를 활용할 수도 있습니다.

HTMLDocument doc = new HTMLDocument();
doc.LoadHtml(input);
string stripped = doc.DocumentNode.InnerText;

이 메서드는 HTML 문자열을 구문 분석하고 모든 태그와 태그를 제외하고 텍스트 콘텐츠만 반환합니다.

주의 사항:

이러한 방법은 HTML 태그를 효과적으로 제거하지만 제한 사항이 있습니다.

  • 정규식 접근 방식에서는 일부 복잡한 내용을 놓칠 수 있습니다. HTML 구조.
  • 대규모 HTML의 경우 HTML Agility Pack이 느려질 수 있습니다.

특정 요구 사항과 장단점을 바탕으로 적절한 솔루션을 선택하는 것이 중요합니다.

위 내용은 문자열에서 모든 HTML 태그를 효율적으로 제거하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.