>웹 프론트엔드 >프런트엔드 Q&A >HTML파서가 무엇인가요?

HTML파서가 무엇인가요?

WBOY
WBOY원래의
2022-01-18 11:40:503500검색

htmlparser는 Java로 작성된 순수 HTML 구문 분석 라이브러리로, 다른 Java 라이브러리 파일에 의존하지 않습니다. 이는 주로 HTML을 선형 또는 중첩 방식으로 구문 분석하는 데 사용됩니다. 페이지 정보 캡처 도구.

HTML파서가 무엇인가요?

이 튜토리얼의 운영 환경: Windows 10 시스템, HTML5 버전, Dell G3 컴퓨터.

htmlparser는 무엇을 의미하나요?

htmlparser는 다른 Java 라이브러리 파일에 의존하지 않으며 주로 html을 변환하거나 추출하는 데 사용됩니다. 오류 없이 초고속으로 HTML을 구문 분석할 수 있습니다. htmlparser의 최신 버전은 이제 2.1입니다. htmlparser는 현재 html 구문 분석 및 분석을 위한 최고의 도구라고 해도 과언이 아닙니다.

HTML Parser는 HTML을 선형 또는 중첩 방식으로 구문 분석하기 위한 Java 라이브러리입니다. 주로 변환이나 추출에 사용되며 필터, 방문자, 사용자 정의 태그 및 사용하기 쉬운 JavaBeans가 있습니다. 빠르고 강력하며 잘 테스트된 패키지입니다.

파서가 처리하는 두 가지 기본 사용 사례는 추출과 변환입니다(처음부터 HTML 페이지를 생성하는 합성 사용 사례는 데이터 소스에 더 가까운 다른 도구로 처리하는 것이 가장 좋습니다). 이전 버전은 웹 페이지에서 데이터를 추출하는 데 중점을 두었지만 HTMLParser 버전 1.4에서는 웹 페이지 변환, 태그 생성 및 편집 단순화, toHtml() 메서드의 축어적 출력이 크게 향상되었습니다.

일반적으로 HTMLParser를 사용하려면 Java 프로그래밍 언어로 코드를 작성할 수 있어야 합니다. 유용할 수 있는 일부 샘플 프로그램이 제공되기는 하지만 원하는 응용 프로그램에 맞게 제공된 프로그램을 직접 만들거나 수정해야 할 가능성이 높습니다.

이 라이브러리를 사용하려면 컴파일하고 실행할 때 클래스 경로에 htmllexer.jar 또는 htmlparser.jar을 추가해야 합니다. htmllexer.jar은 선형적이고 단순하며 순차적인 방식으로 페이지의 공통 문자열, 주석 및 레이블 노드에 대한 저수준 액세스를 제공합니다. htmllexer.jar의 클래스를 포함하는 htmlparser.jar는 문자열, 주석 및 기타 마크업 노드를 포함하는 중첩된 구별 마크업 시퀀스로 페이지에 대한 액세스를 제공합니다. 따라서 lexer nextNode() 메서드 호출의 출력은 다음과 같습니다.

HTML파서가 무엇인가요?

파서 NodeIterator의 출력은 태그를 ,

및 기타 노드의 하위 항목으로 중첩합니다(여기서는 들여쓰기로 표시됨). ):

HTML파서가 무엇인가요?

파서는 페이지의 구조를 표시하기 위해 여는 태그와 닫는 태그의 균형을 맞추려고 시도하는 반면, 어휘 분석기는 단순히 노드를 뱉어냅니다. 애플리케이션에 페이지 구조에 대한 어느 정도의 지식만 필요하고 주로 단일 독립 노드와 관련된 경우 경량 어휘분석기 사용을 고려해야 합니다. 그러나 애플리케이션이 테이블 처리와 같이 페이지의 중첩 구조를 이해해야 하는 경우 전체 파서를 사용할 수 있습니다.

추천 튜토리얼: "html 비디오 튜토리얼"

위 내용은 HTML파서가 무엇인가요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.