HTMLParser 사용법에 대한 자세한 설명(3)-HTML 튜토리얼-php.cn

집

웹 프론트엔드

HTML 튜토리얼

HTMLParser 사용법에 대한 자세한 설명(3)

黄舟

Dec 29, 2016 pm 03:57 PM

htmlparser

HTMLParser는 웹페이지의 콘텐츠를 순회한 후 결과를 트리(포리스트) 구조로 저장합니다. HTMLParser가 결과 콘텐츠에 액세스하는 방법에는 두 가지가 있습니다. 필터를 사용하고 방문자를 사용하십시오.

(1) 필터 클래스
이름에서 알 수 있듯이 필터는 결과를 필터링하고 필요한 콘텐츠를 얻는 것입니다. HTMLParser는 org.htmlparser.filters 패키지에 총 16개의 서로 다른 필터를 정의하며, 이 필터는 여러 범주로 나눌 수도 있습니다.
판단 클래스 필터:

TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter

논리 연산 필터:

AndFilter
NotFilter
OrFilter
XorFilter
其他Filter：
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

모든 필터 클래스는 org.htmlparser.NodeFilter 인터페이스를 구현합니다. 이 인터페이스에는 단 하나의 주요 기능이 있습니다:

boolean accept (Node node);

(2) 판단 클래스 FilterHTMLParser 시작하기 (2) - 노드 콘텐츠, 가져오기 부분을 직접 추가)

public static void main(String[] args) {
try{
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
// 这里是控制测试的部分，后面的例子修改的就是这个地方。
NodeFilter filter = new TagNameFilter ("DIV");
NodeList nodes = parser.extractAllNodesThatMatch(filter); 
if(nodes!=null) {
for (int i = 0; i < nodes.size(); i++) {
Node textnode = (Node) nodes.elementAt(i);
message("getText:"+textnode.getText());
message("=================================================");
}
} 
}
catch( Exception e ) { 
e.printStackTrace();
}
}

출력 결과:

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

파일의 두 Div 노드가 모두 제거된 것을 확인할 수 있습니다. 두 개의 DIV 노드에서 다음 작업을 수행할 수 있습니다

2.2 HasChildFilter
HasChildFilter를 살펴보겠습니다. 방금 이 필터를 봤을 때 이 필터가 Child가 포함된 태그를 반환한다는 것을 당연하게 여겼습니다.

NodeFilter filter = new HasChildFilter();

직접 초기화 코드 수정:

NodeFilter innerFilter = new TagNameFilter ("DIV");
NodeFilter filter = new HasChildFilter(innerFilter);
NodeList nodes = parser.extractAllNodesThatMatch(filter);

출력 결과:

getText:body 
=================================================
getText:div id="top_main"
=================================================

보시다시피 , 출력은 DIV 하위 태그가 있는 두 개의 태그 노드입니다. (본문에는 하위 노드 DIV "top_main"이 있고 "top_main"에는 하위 노드 "logoindex"가 있습니다.

HasChildFilter에도 생성자가 있습니다.

public HasChildFilter (NodeFilter filter, boolean recursive)

recursive가 false인 경우 첫 번째 수준 하위 노드만 필터링됩니다. 예를 들어 이전 예에서 body와 top_main 모두 첫 번째 수준 하위 노드에 DIV 노드가 있으므로 다음을 사용하면 일치합니다. 다음 방법:

NodeFilter filter = new HasChildFilter( innerFilter, true );

출력 결과:

getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:body 
=================================================
getText:div id="top_main"
=================================================

추가 html xmlns="http:// www.w3.org/1999/xhtml", 이는 전체 HTML 페이지의 노드(루트 노드)입니다. 이 노드 바로 아래에 DIV 노드가 없지만 하위 노드 본문 아래에 DIV 노드가 있으므로

2.3 HasAttributeFilter
HasAttributeFilter에는 3개의 생성자가 있습니다:

public HasAttributeFilter ();
public HasAttributeFilter (String attribute);
public HasAttributeFilter (String attribute, String value);

이 필터는 지정된 이름을 포함하는 속성 또는 지정된 속성을 가진 노드와 일치할 수 있습니다.

호출 방법 1:

NodeFilter filter = new HasAttributeFilter();
NodeList nodes = parser.extractAllNodesThatMatch(filter);

출력 결과:

什么也没有输出。

호출 방법 2:

NodeFilter filter = new HasAttributeFilter( "id" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);

출력 결과:

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

호출 방법 3:

NodeFilter filter = new HasAttributeFilter( "id", "logoindex" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);

출력 결과:

getText:div id="logoindex"
=================================================

아주 간단합니다 ㅎㅎ

2.4 기타 판단 열 Filter
HasParentFilter 및 HasSiblingFilter의 기능은 HasChildFilter와 유사합니다. . 직접 해보시고 이해하셔야 합니다.

IsEqualFilter의 매개변수는 노드입니다:

public IsEqualFilter (Node node) {
mNode = node;
}
accept函数也很简单：
public boolean accept (Node node) {
return (mNode == node);
}

(3) 논리 연산. 필터(4) 기타 필터: HTMLParser 시작하기(2) - 노드 콘텐츠 우리는 이미 다양한 유형의 노드에 대해 배웠습니다. 이 필터는 유형을 기준으로 필터링할 수 있습니다.

테스트 코드:

출력 결과:

NodeFilter filter = new NodeClassFilter(RemarkNode.class);
NodeList nodes = parser.extractAllNodesThatMatch(filter);

4.2 StringFilter

이 필터는 표시된 문자열에 지정된 내용이 포함된 태그를 필터링하는 데 사용됩니다. 표시할 수 없는 문자열의 내용(예: 댓글, 링크 등)은 표시되지 않습니다.

getText:这是注释
=================================================
可以看到只有RemarkNode（注释）被输出了。

예제 코드 수정:

테스트 코드:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-title-www.baizeju.com</title></head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">
<!--这是注释 白泽居-www.baizeju.com -->
白泽居-字符串1-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-链接文本-www.baizeju.com</a>
</div>
白泽居-字符串2-www.baizeju.com
</div>
</body>
</html>

출력 결과 :

NodeFilter filter = new StringFilter("www.baizeju.com");
NodeList nodes = parser.extractAllNodesThatMatch(filter);

제목과 두 개의 콘텐츠 문자열, 링크 문자열이 모두 출력되는 것을 볼 수 있지만, 댓글과 링크 태그 자체는 출력되지 않습니다.

getText:白泽居-title-www.baizeju.com
=================================================
getText:
白泽居-字符串1-www.baizeju.com
=================================================
getText:白泽居-链接文本-www.baizeju.com
=================================================
getText:
白泽居-字符串2-www.baizeju.com
=================================================

4.3 LinkStringFilter

이 필터는 링크에 특정 문자열이 포함되어 있는지 확인하는 데 사용되며 특정 웹 사이트를 가리키는 링크를 필터링하는 데 사용할 수 있습니다.
테스트 코드:

출력 결과:

NodeFilter filter = new LinkStringFilter("www.baizeju.com");
NodeList nodes = parser.extractAllNodesThatMatch(filter);

4.4 기타 여러 필터

다른 여러 필터도 문자열 쌍을 기반으로 합니다. 도메인은 판단에 사용됩니다. 이전 도메인과의 주요 차이점은 정규식을 지원한다는 것입니다. 이는 이 기사의 범위를 벗어나므로 직접 실험해 볼 수 있습니다.

getText:a href="http://www.baizeju.com"
=================================================

이전에 소개된 필터는 모두 단일 조건에 대해서만 필터링할 수 있는 단순 필터입니다. HTMLParser는 복잡한 조건을 구현하기 위해 간단한 유형의 필터 조합을 지원합니다. 원리는 일반적인 프로그래밍 언어의 논리 연산과 동일합니다.
3.1 AndFilter
AndFilter는 두 가지 유형의 필터를 결합할 수 있습니다. 동시에 조건을 충족하는 노드만 필터링됩니다.
테스트 코드:

출력 결과:

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new AndFilter(filterID, filterChild);

3.2 OrFilter

이전 AndFilter를 OrFilter로 교체

getText:div id="logoindex"
=================================================

테스트 코드:

출력 결과:

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new OrFilter(filterID, filterChild);

3.3 NotFilter

이전 AndFilter를 NotFilter로 교체

getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

테스트 코드:

출력 결과:

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new NotFilter(new OrFilter(filterID, filterChild));

이전 3.2에서 출력된 몇몇 태그를 제외하고 나머지 태그는 여기에 있습니다.

getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
=================================================
getText:
=================================================
getText:head
=================================================
getText:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
=================================================
getText:title
=================================================
getText:白泽居-www.baizeju.com
=================================================
getText:/title
=================================================
getText:/head
=================================================
getText:
=================================================
getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:
=================================================
getText:body 
=================================================
getText:
=================================================
getText:
=================================================
getText:
=================================================
getText:这是注释
=================================================
getText:
白泽居-www.baizeju.com
=================================================
getText:a href="http://www.baizeju.com"
=================================================
getText:白泽居-www.baizeju.com
=================================================
getText:/a
=================================================
getText:
=================================================
getText:/div
=================================================
getText:
白泽居-www.baizeju.com
=================================================
getText:/div
=================================================
getText:
=================================================
getText:/body
=================================================
getText:
=================================================
getText:/html
=================================================
getText:
=================================================

3.4 XorFilter

이전 AndFilter를 NotFilter로 교체
테스트 코드:

출력 결과:

NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new XorFilter(filterID, filterChild);

4.1 NodeClassFilter

이 필터는 노드 유형이 특정 노드 유형인지 확인하는 데 사용됩니다.

getText:div id="top_main"
=================================================

2.1 TagNameFilter

TabNameFilter는 필터를 이해하기 가장 쉬운 것으로, 태그 이름을 기반으로 필터링합니다.

테스트에 사용된 HTML 파일은 다음과 같습니다.

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title>< /head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
<div id="logoindex">
<!--这是注释-->
白泽居-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
</div>
白泽居-www.baizeju.com
</div>
</body>
</html>

以上就是HTMLParser使用详解（3）的内容，更多相关内容请关注PHP中文网（www.php.cn）！

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

자체 폐쇄 태그는 무엇입니까? 예를 들어보세요.Apr 27, 2025 am 12:04 AM

Self-ClosingTagsinhtmlandxMlaretagsThatCloseThemselvess withoutseeparateClosingTag, 1) theareStement-well-formeddocuments.2) indugible-ustible butrr

HTML 너머 : 웹 개발을위한 필수 기술Apr 26, 2025 am 12:04 AM

강력한 기능과 우수한 사용자 경험을 가진 웹 사이트를 구축하기 위해서는 HTML만으로는 충분하지 않습니다. 다음 기술도 필요합니다. JavaScript는 웹 페이지 동적 및 상호 작용을 제공하며 DOM을 운영하여 실시간 변경을 달성합니다. CSS는 미학 및 사용자 경험을 향상시키기 위해 웹 페이지의 스타일과 레이아웃을 담당합니다. React, Vue.js 및 Angular와 같은 현대 프레임 워크 및 라이브러리는 개발 효율성 및 코드 조직 구조를 향상시킵니다.

HTML의 부울 속성은 무엇입니까? 몇 가지 예를 들어주십시오.Apr 25, 2025 am 12:01 AM

부울 속성은 값없이 활성화되는 HTML의 특수 속성입니다. 1. 부울 속성은 입력 상자를 비활성화하는 등의 존재 여부에 따라 요소의 동작을 제어합니다. 2. 작업 원칙은 브라우저가 구문 분석 할 때 속성의 존재에 따라 요소 동작을 변경하는 것입니다. 3. 기본 사용법은 속성을 직접 추가하는 것이며, 고급 사용량은 JavaScript를 통해 동적으로 제어 될 수 있습니다. 4. 일반적인 실수는 값을 설정해야한다고 잘못 생각하고 올바른 글쓰기 방법은 간결해야합니다. 5. 모범 사례는 코드를 간결하게 유지하고 부울 속성을 합리적으로 사용하여 웹 페이지 성능 및 사용자 경험을 최적화하는 것입니다.

HTML 코드를 어떻게 검증 할 수 있습니까?Apr 24, 2025 am 12:04 AM

HTML 코드는 온라인 유효성 검사기, 통합 도구 및 자동화 된 프로세스를 통해 깨끗할 수 있습니다. 1) w3cmarkupvalidationservice를 사용하여 온라인으로 HTML 코드를 확인하십시오. 2) 실시간 확인을 위해 VisualStudioCode에 HTMLHINT 확장을 설치하고 구성하십시오. 3) htmltidy를 사용하여 시공 프로세스에서 HTML 파일을 자동으로 확인하고 청소하십시오.

HTML vs. CSS 및 JavaScript : 웹 기술 비교Apr 23, 2025 am 12:05 AM

HTML, CSS 및 JavaScript는 최신 웹 페이지를 구축하기위한 핵심 기술입니다. 1. HTML 웹 페이지 구조를 정의합니다. 2. CSS는 웹 페이지의 모양을 담당합니다.

마크 업 언어로서의 HTML : 기능과 목적Apr 22, 2025 am 12:02 AM

HTML의 기능은 웹 페이지의 구조와 내용을 정의하는 것이며, 그 목적은 정보를 표시하는 표준화 된 방법을 제공하는 것입니다. 1) HTML은 타이틀 및 단락과 같은 태그 및 속성을 통해 웹 페이지의 다양한 부분을 구성합니다. 2) 콘텐츠 및 성능 분리를 지원하고 유지 보수 효율성을 향상시킵니다. 3) HTML은 확장 가능하므로 사용자 정의 태그가 SEO를 향상시킬 수 있습니다.

HTML, CSS 및 JavaScript의 미래 : 웹 개발 동향Apr 19, 2025 am 12:02 AM

HTML의 미래 트렌드는 의미론 및 웹 구성 요소이며 CSS의 미래 트렌드는 CSS-In-JS 및 CSShoudini이며, JavaScript의 미래 트렌드는 WebAssembly 및 서버리스입니다. 1. HTML 시맨틱은 접근성과 SEO 효과를 향상시키고 웹 구성 요소는 개발 효율성을 향상 시키지만 브라우저 호환성에주의를 기울여야합니다. 2. CSS-in-JS는 스타일 관리 유연성을 향상 시키지만 파일 크기를 증가시킬 수 있습니다. CSShoudini는 CSS 렌더링의 직접 작동을 허용합니다. 3. Webosembly는 브라우저 애플리케이션 성능을 최적화하지만 가파른 학습 곡선을 가지고 있으며 서버리스는 개발을 단순화하지만 콜드 스타트 문제의 최적화가 필요합니다.

HTML : 구조, CSS : 스타일, 자바 스크립트 : 동작Apr 18, 2025 am 12:09 AM

웹 개발에서 HTML, CSS 및 JavaScript의 역할은 다음과 같습니다. 1. HTML은 웹 페이지 구조를 정의하고, 2. CSS는 웹 페이지 스타일을 제어하고 3. JavaScript는 동적 동작을 추가합니다. 그들은 함께 현대 웹 사이트의 프레임 워크, 미학 및 상호 작용을 구축합니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.