HTMLParser 사용에 대한 자세한 설명 (1)-HTML 튜토리얼-php.cn

집

웹 프론트엔드

HTML 튜토리얼

HTMLParser 사용에 대한 자세한 설명 (1)

黄舟

Dec 29, 2016 pm 03:49 PM

htmlparser

검색 엔진 개발 연구에 있어서 HTML 웹 페이지 처리는 핵심 링크입니다. 인터넷에는 많은 오픈 소스 코드가 있습니다. Java의 경우 HTMLParser가 잘 알려져 있고 널리 사용됩니다. HTMLParser의 홈페이지는 http://htmlparser.sourceforge.net/이며, 마지막 업데이트는 2006년 9월 버전 1.6이었습니다. 그러나 그것은 중요하지 않습니다. HTML의 내용은 오랫동안 크게 변경되지 않았으며 HTMLParser는 기본적으로 이를 처리하는 데 아무런 문제가 없습니다. HTMLParser는 간결하고 빠르다는 장점이 있습니다. 단점은 관련 문서가 상대적으로 적고(영어로 된 문서도 거의 없음) 직접 탐색해야 하는 기능이 많다는 것입니다. 초보자에게는 여전히 약간의 노력이 필요하지만 일단 시작하면 HTMLParser의 구조 설계가 매우 영리하고 실용적이며 기본적으로 다양한 요구를 충족할 수 있다는 것을 알게 될 것입니다.
여기에는 지난 몇 달 간의 경험을 바탕으로 HTMLParser를 처음 접하는 친구들에게 도움이 되기를 바랍니다. (단, 대학 입시에서 중국어 점수가 합격보다 1점밖에 높지 않았기 때문에 문법 문제는 모두 양해해 주시기 바랍니다.)

HTMLParser의 핵심 모듈은 org.htmlparser.Parser입니다. 클래스 이 클래스는 실제로 HTML 페이지의 처리를 완료합니다. 이 클래스에는 다음과 같은 생성자가 있습니다.

public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
和一个静态类 public static Parser createParser (String html, String charset);

대부분의 사용자에게 가장 일반적으로 사용되는 방법은 URLConnection 또는 웹 페이지 콘텐츠가 포함된 문자열을 통해 Parser를 초기화하거나 정적 함수를 사용하여 생성하는 것입니다. 파서 객체. ParserFeedback의 코드는 매우 간단하며 분석 프로세스를 디버깅하고 추적하도록 설계되었으며 일반적으로 변경할 필요가 없습니다. Lexer를 사용하는 것은 비교적 고급 주제이므로 나중에 논의하겠습니다.
여기서 더 흥미로운 점은 페이지의 인코딩 방식을 설정해야 할 경우 Lexer를 사용하지 않고 정적 함수만 있다는 점입니다. 대부분의 중국어 페이지에서는 이 방법을 좀 더 자주 활용해야 할 것 같습니다.

다음은 Parser 초기화 예시이다.

/**
* @author www.baizeju.com
*/
package com.baizeju.htmlparsertester;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.visitors.TextExtractingVisitor;
import org.htmlparser.Parser;
/**
* @author www.baizeju.com
*/
public class Main {
private static String ENCODE = "GBK";
private static void message( String szMsg ) {
try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); } catch(Exception e ){}
}
public static String openFile( String szFileName ) {
try {
BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
String szContent="";
String szTemp;
while ( (szTemp = bis.readLine()) != null) {
szContent+=szTemp+"/n";
}
bis.close();
return szContent;
}
catch( Exception e ) {
return "";
}
}
public static void main(String[] args) {
String szContent = openFile( "E:/My Sites/HTMLParserTester.html");
try{
//Parser parser = Parser.createParser(szContent, ENCODE);
//Parser parser = new Parser( szContent );
Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );
TextExtractingVisitor visitor = new TextExtractingVisitor();
parser.visitAllNodesWith(visitor);
String textInPage = visitor.getExtractedText();
message(textInPage);
}
catch( Exception e ) { 
}
}
}

강조한 부분은 여러 가지 초기화 방법을 테스트한 결과입니다. Parser가 콘텐츠를 출력할 수 있다는 것을 알 수 있다면 나중에 Parser 콘텐츠에 액세스하는 방법에 대해 논의하겠습니다.

위 내용은 HTMLParser(1) 사용에 대한 자세한 설명입니다. 더 많은 관련 내용은 PHP 중국어 홈페이지(www.php.cn)를 참고해주세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

HTML의 역할 : 웹 컨텐츠 구조Apr 11, 2025 am 12:12 AM

HTML의 역할은 태그 및 속성을 통해 웹 페이지의 구조와 내용을 정의하는 것입니다. 1. HTML은 읽기 쉽고 이해하기 쉽게하는 태그를 통해 컨텐츠를 구성합니다. 2. 접근성 및 SEO와 같은 시맨틱 태그 등을 사용하십시오. 3. HTML 코드를 최적화하면 웹 페이지로드 속도 및 사용자 경험이 향상 될 수 있습니다.

HTML 및 코드 : 용어를 자세히 살펴 봅니다Apr 10, 2025 am 09:28 AM

"Code"는 "Code"BroadlyIncludeLugageslikeJavaScriptandPyThonforFunctureS (htMlisAspecificTypeofCodeFocudecturecturingWebContent)

HTML, CSS 및 JavaScript : 웹 개발자를위한 필수 도구Apr 09, 2025 am 12:12 AM

HTML, CSS 및 JavaScript는 웹 개발의 세 가지 기둥입니다. 1. HTML은 웹 페이지 구조를 정의하고 등과 같은 태그를 사용합니다. 2. CSS는 색상, 글꼴 크기 등과 같은 선택기 및 속성을 사용하여 웹 페이지 스타일을 제어합니다.

HTML, CSS 및 JavaScript의 역할 : 핵심 책임Apr 08, 2025 pm 07:05 PM

HTML은 웹 구조를 정의하고 CSS는 스타일과 레이아웃을 담당하며 JavaScript는 동적 상호 작용을 제공합니다. 세 사람은 웹 개발에서 의무를 수행하고 화려한 웹 사이트를 공동으로 구축합니다.

HTML은 초보자를 위해 쉽게 배우나요?Apr 07, 2025 am 12:11 AM

HTML은 간단하고 배우기 쉽고 결과를 빠르게 볼 수 있기 때문에 초보자에게 적합합니다. 1) HTML의 학습 곡선은 매끄럽고 시작하기 쉽습니다. 2) 기본 태그를 마스터하여 웹 페이지를 만들기 시작하십시오. 3) 유연성이 높고 CSS 및 JavaScript와 함께 사용할 수 있습니다. 4) 풍부한 학습 리소스와 현대 도구는 학습 과정을 지원합니다.

HTML의 시작 태그의 예는 무엇입니까?Apr 06, 2025 am 12:04 AM

anexampleStartingtaginhtmlis, whithbeginsaparagraph.startingtagsareessentialinhtmlastheyinitiate rements, definetheirtypes, andarecrucialforstructurituringwebpages 및 smanstlingthedom.

메뉴에서 점선 분할 효과의 중심 정렬을 달성하기 위해 CSS의 Flexbox 레이아웃을 사용하는 방법은 무엇입니까?Apr 05, 2025 pm 01:24 PM

메뉴에서 점선 분할 효과를 설계하는 방법은 무엇입니까? 메뉴를 설계 할 때는 일반적으로 접시 이름과 가격 사이에 왼쪽과 오른쪽을 정렬하는 것이 어렵지 않지만 점선 또는 중간의 점은 어떻습니까?

온라인 코드 편집기는 코드 입력을 구현하는 데 사용하는 HTML 요소는 무엇입니까?Apr 05, 2025 pm 01:21 PM

웹 코드 편집기의 HTML 요소 분석 많은 온라인 코드 편집기를 사용하면 사용자가 HTML, CSS 및 JavaScript 코드를 입력 할 수 있습니다. 최근에 누군가가 제안했습니다 ...

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.