>  기사  >  Java  >  정규 표현식이 Java에서 HTML을 효과적으로 구문 분석할 수 있습니까?

정규 표현식이 Java에서 HTML을 효과적으로 구문 분석할 수 있습니까?

Susan Sarandon
Susan Sarandon원래의
2024-11-06 06:04:02634검색

Can Regular Expressions Effectively Parse HTML in Java?

정규식을 사용하여 Java에서 HTML 구문 분석

href 및 src 태그와 같은 HTML 요소를 식별하는 것은 정규식을 통해 수행할 수 있습니다. 종종 권장되지 않습니다. 여전히 이 접근 방식을 고려 중이라면 Java에서 이를 수행하는 방법을 살펴보겠습니다.

정규 표현식으로 구문 분석

href 태그를 찾으려면 다음과 같은 정규식:

Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");

src 태그를 찾으려면:

Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");

URL 추출

패턴이 있으면 일치시킬 수 있습니다. HTML 문자열에 대해 URL 그룹을 캡처합니다.

Matcher m = p.matcher(htmlString);
while (m.find()) {
  String url = m.group(1);
}

권장 사항

그러나 정규 표현식 대신 HTML 파서를 사용하는 것이 좋습니다. HTML 구조는 복잡하며 정규식은 종종 극단적인 경우를 간과할 수 있습니다. JSoup과 같은 전용 HTML 파서는 HTML을 해석하고 원하는 요소를 안정적으로 추출하는 데 훨씬 더 능숙합니다.

위 내용은 정규 표현식이 Java에서 HTML을 효과적으로 구문 분석할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.