정규식을 사용하여 Java에서 HTML 구문 분석
href 및 src 태그와 같은 HTML 요소를 식별하는 것은 정규식을 통해 수행할 수 있습니다. 종종 권장되지 않습니다. 여전히 이 접근 방식을 고려 중이라면 Java에서 이를 수행하는 방법을 살펴보겠습니다.
정규 표현식으로 구문 분석
href 태그를 찾으려면 다음과 같은 정규식:
Pattern p = Pattern.compile("<a.*?href=\"(.*?)\".*?>");
src 태그를 찾으려면:
Pattern p = Pattern.compile("<img.*?src=\"(.*?)\".*?>");
URL 추출
패턴이 있으면 일치시킬 수 있습니다. HTML 문자열에 대해 URL 그룹을 캡처합니다.
Matcher m = p.matcher(htmlString); while (m.find()) { String url = m.group(1); }
권장 사항
그러나 정규 표현식 대신 HTML 파서를 사용하는 것이 좋습니다. HTML 구조는 복잡하며 정규식은 종종 극단적인 경우를 간과할 수 있습니다. JSoup과 같은 전용 HTML 파서는 HTML을 해석하고 원하는 요소를 안정적으로 추출하는 데 훨씬 더 능숙합니다.
위 내용은 정규 표현식이 Java에서 HTML을 효과적으로 구문 분석할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!